CN113449612A

CN113449612A - 一种基于子流型稀疏卷积的三维目标点云识别的方法

Info

Publication number: CN113449612A
Application number: CN202110662372.0A
Authority: CN
Inventors: 林洪彬; 杨博; 郭聃; 陈泽宇; 关勃然; 魏佳宁
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-28
Anticipated expiration: 2041-06-15
Also published as: CN113449612B

Abstract

本发明公开了一种基于子流型稀疏卷积的三维目标点云识别的方法，包括如下步骤：S1获取目标场景的初始点云；S2获取目标点云局部特征；S3将子流型卷积网络的输出作为两个相同的MLP网络的输入；S4将第一个MLP网络输出到交叉熵损失函数；S5将第二个MLP网络输出到两个基于注意力机制的图卷积神经网络，最后输出到平方误差损失函数；另外将第二个MLP网络不经图卷积神经网络直接输出到平方误差损失函数；S6选用交叉熵损失函数和平方误差损失函数之和作为网络模型总损失函数，根据总损失函数值的大小，进行网络模型的反向训练，本发明加快网络训练速度，提高识别正确率，改善占用内存空间大的缺陷，实现快速高效的三维目标识别。

Description

一种基于子流型稀疏卷积的三维目标点云识别的方法

技术领域

本发明涉及深度学习和三维目标检测、识别领域，尤其是一种基于子流型稀疏卷积的三维目标点云识别的方法。

背景技术

近年来，卷积神经网络在深度学习、计算机视觉的研究及其应用领域中掀起了一股热潮，因其具有强大的特征学习能力，所以引起了国内外专家学者们的广泛关注。但是往往在利用卷积网络处理一些自然稀疏的输入时空数据时，例如使用激光雷达扫描仪或者RGB-D相机得到的点云，其本质上就是稀疏的。把卷积网络应用于这种稀疏数据时效率非常低，所以如何更高效的处理空间稀疏数据，并且使用它们来开发空间稀疏卷积神经网络，是我们任务的重中之重。

传统的卷积神经网络实现是针对在密集网络上的数据进行优化的，不能有效处理稀疏数据。最近许多旨在能够有效处理稀疏数据的卷积神经网络应运而生。从卷积方式来说，这与传统常规卷积神经网络相同，但是它们在浮点运算和内存方面需要更少的计算资源。

卷积神经网络属于一种带有卷积结构的前馈神经网络。1998年，LuCun等人提出用于文档识别的卷积神经网络(CNN)，并提出了用于字符识别的LeNet-5卷积神经网络系统。LeNet-5网络由卷积层、下采样层、全连接层构成，该网络在手写数字识别领域中取得了不错的效果。卷积神经网络在图像识别以及分类领域中应用极其广泛，特别是随着大规模图像数据的产生以及计算机硬件的飞速发展，卷积神经网络及其改进方法在图像理解中取得了突破性的成果。2012年，Krizhevsky提出采用了AlexNet的卷积神经网络，并且在ImageNet图像分类任务中取得了最出色的成绩。在AlexNet之后，为了进一步改善优化网络性能，提出了能够进行有效分类检测的RCNN、VGGNet、GoogleNet等。2017年，Graham等人提出了用于处理空间稀疏输入的子流型卷积神经网络，并且针对不同图像识别设置不同的稀疏表示方法。其结构在字符识别上取得非常好的效果。Bouvrie提出通过训练让机器自动学习特征图的组合，从而取代人工选择组合，其思想方法是在损失函数上加入稀疏项，通过反向传播对组合权重求梯度，迭代过程中由稀疏后权重大的项来决定哪些特征图组合生成下一层的输入。

发明内容

本发明需要解决的技术问题是提供一种基于子流型稀疏卷积的三维目标点云识别的方法，加快了网络训练速度，提高识别正确率，改善占用内存空间大的缺陷，实现快速高效的三维目标识别。

为解决上述技术问题，本发明所采用的技术方案是：一种基于子流型稀疏卷积的三维目标点云识别的方法，包括如下步骤：

步骤1：获取目标场景的初始点云；

步骤2；基于初始点云数据和子流型卷积神经网络，利用子流型稀疏卷积进行局部特征提取，获取目标点云局部特征；

步骤3：将子流型卷积网络的输出作为两个相同的MLP网络的输入；

步骤4：将步骤3中第一个MLP网络输出到交叉熵损失函数，记作通道1中的交叉熵损失函数L；

步骤5：将步骤3中第二个MLP网络输出到两个基于注意力机制的图卷积神经网络，最后输出到平方误差损失函数，记作通道2中的图卷积网络的平方误差损失函数E_gcn；另外将步骤3中第二个MLP网络不经图卷积神经网络直接输出到平方误差损失函数，记作通道3中的平方误差损失函数E；

步骤6：选用交叉熵损失函数和平方误差损失函数之和作为网络模型总损失函数T，根据总损失函数T值的大小，进行网络模型的反向训练,网络模型总损失函数T公式如下：

T＝L+E_gcn+E，

其中，T为网络模型总损失函数，L为通道1中的交叉熵损失函数，E_gcn为通道2中的图卷积网络的平方误差损失函数，E为通道3中的平方误差损失函数。

本发明技术方案的进一步改进在于：在步骤1中获取点云数据的目标场景为室外场景或室内场景，通过单目成像系统或者双目成像系统获取目标场景的初始点云数据。

本发明技术方案的进一步改进在于：所述步骤2中获取目标点云局部特征具体步骤为：

先将原始点云中非零的位置信息和层次特征同哈希表和矩阵存储起来，称其为活动站点，矩阵的行用来记录活动点的位置，每一行存放一个活动点的特征值，执行下面操作：

其中，y_k表示目标点局部特征，input(x_i)表示输入，K(x_k,x_i)表示卷积核，VSC表示进行局部特征提取的操作。

本发明技术方案的进一步改进在于：所述VSC的具体操作分为两个部分：

第一部分：初始化：计算每个点的初始特征矩阵和哈希表，输入特征矩阵的每一行记录活动点的位置，每一行存放一个活动点的特征值；哈希表包含全部活动站点的位置信息、行映射，位置是整数坐标的元组，行号表示特征矩阵中对应的行；

第二部分：动态计算：动态创建并输出矩阵和哈希表格，并在每次卷积操作时创建规则表，具体步骤如下：

第一步：对输入进行padding填充，padding大小由卷积核尺寸决定，padding＝(f-1)/2，f代表卷积核的尺寸；

第二步：将输出矩阵的值置0，在规则表中找到输入的索引和输出的索引对，并且从输入矩阵中得到输入行的位置和特征值，输入矩阵中每一行对应一个点，大小为1m，和大小为m×n的卷积核相乘，得到大小为1n的输出值并写入输出矩阵；

第三步：计算活动站点和舍弃非活动站点，当输出最中间的点是活动站点，那么这个输出就是活动站点，反之就是非活动站点，对其进行舍弃；子流稀疏卷积还包括强制清零功能，稀疏卷积输出尺寸会越来越大，原本0值的地方会受有值区域的影响而卷积出非零值，为了保持原有特征的稀疏性，把之前是0的位置强制清零。

本发明技术方案的进一步改进在于：所述步骤3中将子流型卷积网络的输出作为两个相同MLP网络的输入，MLP为多个感知器构建而成的神经网络，每一层的感知器和下一层的感知器互相连接，MLP由输入层、输出层和多个隐藏层组成，MLP是由多个非线性以及线性激活函数组成的混合函数，MLP用下式表示：

F(x)＝s·ω_n(x)·σ_n-1…ω₁(x)

式中，ω_n(x),ω_n-1(x),…,ω₁(x)表示全连接层，σ_n-1表示激活函数，s表示softmax函数，其中全连接层位于卷积神经网络的最后层，可以被看作是一个1×1卷积核，给出最后的分类识别结果。

本发明技术方案的进一步改进在于：所述步骤4中通道1中的交叉熵损失函数L的公式如下：

式中，

为预测输出值，y为真实值，L为交叉熵损失函数。

本发明技术方案的进一步改进在于：所述步骤5中的通道2中的图卷积网络的平方误差损失函数E_gcn和通道3中的平方误差损失函数E，采用了加入组稀疏约束的平方误差损失函数

以期望得到稀疏卷积核，具体公式如下：

式中，E为经典卷积神经网络的损失函数，λ是正则化参数，控制着训练数据上网络的最小化拟合的程度，当λ＝0时，上式为经典卷积神经网络算法，

表示第l层第j个特征图与前一层第i个特征图连接的卷积核模板中第(uv)个元素。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明基于子流型稀疏卷积的点云特征提取方法，利用点云的稀疏性做进一步的特征提取，能够更加高效的对稀疏点云的局部特征进行更深层次的提取；

2、本发明在平方误差损失函数中加入了组稀疏约束项，使得学习到的卷积核具有类似于一阶微分算子模板，卷积核中部分值是0或者趋于0。相比较于传统的卷积神经网络，该发明能够处理较为复杂的大场景点云数据，能够实现时间效率和识别准确性的双重优势；

3、本发明采用注意力模型能够有效提取点云数据的全局深度信息关联，将子流型卷积神经网络提取到的特征经过注意力模型得到邻接矩阵和节点特征，两者结合作为图卷积网络的输入，最终得到目标分类结果。该发明降低了网络的训练难度，并使得训练过程更稳定。

附图说明

图1为本发明所述的一种基于子流型稀疏卷积的整体网络结构示意图；

图2为本发明提供的一种基于子流型稀疏卷积的三维目标检测识别方法的流程图。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

如图1至图2所示，一种基于子流型稀疏卷积的三维目标点云识别的方法，包括如下步骤：

步骤1：获取目标场景的初始点云数据：

目标场景可以是室外场景也可以是室内场景，需要获取目标场景的初始点云数据，可以通过深度相机采集得到，也可以利用其它单目成像系统或者双目成像系统得到，常见的深度相机有Kinect和TOF相机。

点云本身具有稀疏性的特点，使用子流型卷积网络提取更深层次的局部信息时，能够极大地提高卷积效率，其适用于处理点云目标检测识别这样的问题。

子流型稀疏卷积网络(submanifold sparse convolutional networks，简称SSCNs)使用子流型稀疏卷积操作来固定活动站点的位置(active sites)将输入/隐藏层的状态用哈希表和特征稀疏矩阵存储起来，为了使许多卷积层的稀疏性保持不变，卷积会对空位补0，并且还会进行padding处理来保持卷积核的大小不发生改变，卷积操作后对非激活点置0来保持稀疏性特征。

获取目标点云局部特征具体步骤为：

先将原始点云中非零的位置信息和层次特征同哈希表和矩阵存储起来，称其为活动站点(active sites)，矩阵的行用来记录活动点的位置，每一行存放一个活动点的特征值。如果输入大小是a×m,则表示有a个活动站点，每个活动站点有m个特征值。执行下面操作：

其中，y_k表示局部特征，input(x_i)表示输入，K(x_k,x_i)表示卷积核。VSC表示进行局部特征提取的操作，最后生成相应的输出y_k。

VSC的具体操作分为两个部分：

第一部分：初始化。初始化会计算每个点的初始特征矩阵和哈希表，输入特征矩阵的每一行记录活动点的位置，每一行存放一个活动点的特征值；哈希表包含全部活动站点的位置信息、行映射，位置是整数坐标的元组，行号表示特征矩阵中对应的行。

第二部分：动态计算。动态计算会动态创建并输出矩阵和哈希表格，并在每次卷积操作时创建规则表(rule table)，具体步骤如下：

第一步：对输入进行padding填充，以避免卷积操作使得每层的大小发生变化，padding大小由卷积核尺寸决定，padding＝(f-1)/2，f代表卷积核的尺寸；

第二步：将输出矩阵的值置0，在规则表中找到输入的索引和输出的索引对，并且从输入矩阵中得到输入行的位置和特征值。输入矩阵中每一行对应一个点，大小为1×m，和大小为m×n的卷积核相乘，得到大小为1×n的输出值并写入输出矩阵。

第三步：计算活动站点和舍弃非活动站点，当输出最中间的点是活动站点，那么这个输出就是活动站点，反之就是非活动站点，对其进行舍弃。子流稀疏卷积还包括强制清零功能，稀疏卷积输出尺寸会越来越大，原本0值的地方会受有值区域的影响而卷积出非零值，为了保持原有特征的稀疏性，所以把之前是0的位置强制清零，这样操作的运算复杂度比传统卷积的复杂度小。

综上，本发明中的子流型稀疏卷积对局部信息进行处理优化，通过更新哈希表和特征矩阵的方法来实现高速、低内存占用的卷积操作，从而达到更高效更深层次地提取点云的局部特征。

通过步骤1和步骤2中的子流型卷积网络输出是两个MLP网络的输入。

在很多点云识别任务中，获取到的点云特征是具有较强非线性的，由于MLP网络能够拟合任何函数，所以增强了网络对局部感受野的特征辨识能力和非线性表达力。MLP是由多个感知器构建而成的神经网络，每一层的感知器和下一层的感知器的互相连接的。MLP主要由三个部分组成，分别为输入层、输出层和多个隐藏层，在实际应用中，MLP是由多个非线性以及线性激活函数组成的混合函数，函数求解速度快，并且存在边界，因此求导过程相对简单。MLP可以用下式表示：

F(x)＝s·ω_n(x)·σ_n-1…ω₁(x)；

式中，ω_n(x),ω_n-1(x),…,ω₁(x)表示全连接层，σ_n-1表示激活函数，s表示softmax函数。其中的全连接层可以被看作一个1×1卷积核，能够实现特征降维与升维的功能，使得整体网络模型既能够提取抽象的特征来解决复杂的非线性问题，还可以训练更深层的网络而保持训练参数处于可接受的范围内。全连接层位于卷积神经网络的最后层，给出最后的分类识别结果。

通道1中的交叉熵损失函数L的公式如下：

式中，

为预测输出值，y为真实值，L为交叉熵损失函数。

步骤5：将步骤3中第二个MLP网络输出到两个基于注意力机制的图卷积神经网络，最后输出到平方误差损失函数，记作通道2中的图卷积网络的平方误差损失函数E_gcn；另外将步骤3中第二个MLP网络不经图卷积神经网络直接输出到平方误差损失函数，记作通道3中的平方误差损失函数E。

点云中每个点的深度信息不仅与它邻近的点的深度信息相关，还要同时考虑更大范围内的其它点的深度信息，这是因为大范围内的其他区域的点云的深度信息可能与该点的深度信息相同或者接近，能够为该点的特征提取提供更多的信息。相对于卷积神经网络来说，卷及操作的感受野是局部的，只有当卷积层数非常深时，才能将更大范围内的点云之间的信息联系起来，这样操作的缺点就是会导致非常大的参数量，而注意力机制可以更好的解决这个问题。

基于注意力机制的图卷积神经网络(GCN)将子流型稀疏卷积网络作为骨架用于原始点云的特征提取，将提取出的特征经过注意力模型得到邻接矩阵和节点特征，将两者作为图结构输入GCN，最终得到分类结果。GCN的本质是聚合点云附近的邻居信息，此外图卷积层的数量并不是越多越好，已有研究表明，在使用多个图卷积层后，会使得相应的学习任务变得更难，这个称为平滑问题，因此本发明中的图卷积数量定为2层，是最合适的层数。

为了使学习到的部分卷积核具有类似于一阶微分梯度算子，因此在通道2中的图卷积网络的平方误差损失函数E_gcn和通道3中的平方误差损失函数E，采用了加入组稀疏约束的平方误差损失函数

以期望得到稀疏卷积核，本发明在平方误差损失函数中加入了组稀疏约束项，使得学习到的卷积核具有类似于一阶微分算子模板，卷积核中部分值是0或者趋于0。相比较于传统的卷积神经网络，该发明能够处理较为复杂的大场景点云数据，能够实现时间效率和识别准确性的双重优势。

组稀疏约束的平方误差损失函数

具体公式如下：

假如加入的稀疏约束项是1-范数时，即：

先求

对

的偏导数：

其中，sign(·)是符号函数，则

假如加入的稀疏约束项是2-范数时，即：

先求

对

的偏导数：

则：

所以总的平方误差代价函数：

对

修正就是在原有的修正上加上

和

根据图1所示，由上式推理出本发明中的通道2和通道3的损失函数E_gcn和E的公式分别为；

式中，E₁为通道2中图卷积神经网络的损失函数，E₂为通道3中MLP卷积神经网络的损失函数，λ是正则化参数，控制着训练数据上网络的最小化拟合的程度；

T＝L+E_gcn+E。

Claims

1.一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：包括如下步骤：

步骤1：获取目标场景的初始点云；

步骤2：基于初始点云数据和子流型卷积神经网络，利用子流型稀疏卷积进行局部特征提取，获取目标点云局部特征；

T＝L+E_gcn+E，

2.根据权利要求1所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：在步骤1中获取点云数据的目标场景为室外场景或室内场景，通过单目成像系统或者双目成像系统获取目标场景的初始点云数据。

3.根据权利要求2所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：所述步骤2中获取目标点云局部特征具体步骤为：

4.根据权利要求3所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：所述VSC的具体操作分为两个部分：

5.根据权利要求4所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：所述步骤3中将子流型卷积网络的输出作为两个相同MLP网络的输入，MLP为多个感知器构建而成的神经网络，每一层的感知器和下一层的感知器互相连接，MLP由输入层、输出层和多个隐藏层组成，MLP是由多个非线性以及线性激活函数组成的混合函数，MLP用下式表示：

F(x)＝s·ω_n(x)·σ_n-1…ω₁(x)，

式中，ω_n(x),ω_n-1(x),,ω₁(x)表示全连接层，σ_n-1表示激活函数，s表示softmax函数，其中全连接层位于卷积神经网络的最后层，被看作是一个1×1卷积核，给出最后的分类识别结果。

6.根据权利要求5所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：所述步骤4中通道1中的交叉熵损失函数L的公式如下：

式中，

为预测输出值，y为真实值，L为交叉熵损失函数。

7.根据权利要求6所述的一种基于子流型稀疏卷积的三维目标点云识别的方法，其特征在于：所述步骤5中的通道2中的图卷积网络的平方误差损失函数E_gcn和通道3中的平方误差损失函数E，采用了加入组稀疏约束的平方误差损失函数

以期望得到稀疏卷积核，具体公式如下：