CN114743014A

CN114743014A - 基于多头自注意力的激光点云特征提取方法及装置

Info

Publication number: CN114743014A
Application number: CN202210311581.5A
Authority: CN
Inventors: 秦翰林; 林凯东; 马琳; 朱文锐; 延翔; 侯本照; 张天吉; 代杨; 梁毅
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-12

Abstract

本发明公开了一种基于多头自注意力的激光点云特征提取方法及装置，该方法包括：获取激光雷达的原始点云信息；对原始点云信息进行体素分割，得到深度图；对深度图进行低级特征提取，得到低级特征图；基于级联的自注意力感知网络对低级特征图依次进行多次特征感知，得到高级特征图；将低级特征图和高级特征图进行融合，得到最终的点云特征图。该方法同时兼顾了原始图像的高级特征与低级特征，充分利用了原始点云的三维信息，有效防止了在多层特征提取下丢失低级特征的问题，提高了特征对原始数据的表达能力，进而提升了后续检测精度和效率。

Description

基于多头自注意力的激光点云特征提取方法及装置

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多头自注意力的激光点云特征提取方法及装置。

背景技术

在计算机中，图像以有序的多维矩阵进行存储，灰度图像对应一个二维数组，彩色图像对应一个三维数组。当参与计算的图像数目较少时，可以直接利用图像矩阵作为图像特征进行操。近年来，随着人工智能、大数据的快速发展，基于数据驱动的方法逐渐成为主流，在该类方法中，数据量往往都非常庞大，若依然采用传统的方法，直接用整个图像矩阵作为图像特征进行各类运算，将会占用大量的存储和计算资源，造成巨大的浪费。因此，对原始图像进行特征提取，通过一定的方法对图像进行降维，只存储图像中的关键信息，去除冗余信息有着巨大的意义。

目前，现有的用于深度学习任务的特征提取方法中，多采用基于CNN模型或者RNN模型的方法。其中，基于CNN模型的特征提取方法中，对图像两个位置之间的关联计算所需要的操作次数与两个位置之间的距离成正相关，因此在限定网络层数的情况下，难以很好的计算图像中距离较远的位置之间的关联，从而导致部分特征丢失；而基于RNN的方法因为其固有的顺序属性，也难以进行并行计算；且对于长序列，内存的限制会阻碍网络对样本的批量处理，影响后续检测精度。

综上，现有的特征提取方法所提取的特征对于表达原始数据的表达能力存在欠缺，严重影响了后续的激光点云目标检测、激光点云语义分割等任务的检测精度，且数据处理效率有待进一步提高。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于多头自注意力的激光点云特征提取方法及装置。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于多头自注意力的激光点云特征提取方法，包括：

步骤1：获取激光雷达的原始点云信息；

步骤2：对所述原始点云信息进行体素分割，得到深度图；

步骤3：对所述深度图进行低级特征提取，得到低级特征图；

步骤4：基于级联的自注意力感知网络对所述低级特征图依次进行多次特征感知，得到高级特征图；

步骤5：将所述低级特征图和所述高级特征图进行融合，得到最终的点云特征图。

在本发明的一个实施例中，步骤3具体包括：利用第一卷积层对所述深度图进行低级特征提取，得到低级特征图；其中，所述第一卷积层包括一个3*3卷积核。

在本发明的一个实施例中，在步骤4中，所述自注意力感知网络包括多个级联的特征感知模块和第二卷积层；其中，所述第二卷积层包括一个3*3卷积；

则步骤4具体包括：

依次利用多个特征感知模块对所述低级特征图进行特征感知；

利用第二卷积层对最后一级特征感知模块的输出进行处理，得到高级特征图。

在本发明的一个实施例中，每个所述特征感知模块包括多个级联的特征提取单元和第三卷积层；其中，所述第三卷积层包括一个3*3卷积核；

则每个特征感知模块对所述低级特征图进行特征感知的具体过程包括：

利用第一级特征提取单元对所述当前级特征感知模块的输入进行特征提取；

将当前级特征提取单元的输出作为下一级特征提取单元的输入，依次进行特征提取；

利用所述第三卷积层对最后一级特征提取单元的输出进行特征提取，得到当前特征感知模块的输出。

在本发明的一个实施例中，每个所述特征提取单元包括自注意力感知层和多层感知机；则每个特征提取单元对输入特征的处理过程包括：

利用所述自注意力感知层对当前特征提取单元的输入进行处理，得到第一特征图；

将当前特征提取单元的输入和所述第一特征图进行融合处理，得到第二特征图；

利用所述多层感知机对所述第二特征图进行处理，得到第三特征图；

将所述第三特征图和所述第二特征图进行融合处理，得到当前特征提取单元的输出。

在本发明的一个实施例中，利用所述自注意力感知层对当前特征提取单元的输入进行处理，得到第一特征图，包括：

设置通道数为C，窗口大小为M，以将当前特征提取单元的输入图像划分为M×M×C个图像块；

利用所述自注意力感知层中的权重矩阵集计算每个图像块的单头注意力值Q、K、V；

根据所述单头注意力值计算每个图像块与其他图像块之间的得分，计算公式为：

Score_i→j＝Q_i·K_j

其中，Score_i→j指第i个图像块对第j个图像块的分数，Q_i表示第i个图像块的单头注意力Q值，K_j表示第j个图像块的单头注意力K值；

对每个图像块进行相对位置编码，得到编码矩阵；

利用Softmax函数对每个图像块的得分进行归一化处理；

对归一化处理后图像块计算其标准自注意力；

将计算得到的标准自注意力进行聚合，得到第一特征图。

在本发明的一个实施例中，每个所述特征提取单元还包括第一归一化层和第二归一化层；

所述第一归一化层具体用于在利用所述自注意力感知层对当前特征提取单元的输入进行处理之前，对当前特征提取单元的输入进行归一化处理；

所述第二归一化层具体用于在利用所述多层感知机对所述第二特征图进行处理之前，对所述第二特征图进行归一化处理。

在本发明的一个实施例中，所述多层感知机包括两个全连接层和一个GELU激活函数。

第二方面，本发明提供了一种基于多头自注意力的激光点云特征提取装置，包括：

数据获取模块，用于获取激光雷达的原始点云信息；

体素分割模块，用于对所述原始点云信息进行体素分割，得到深度图；

低级特征提取模块，用于对所述深度图进行低级次特征提取，得到低级特征图；

高级特征提取模块，包括多个级联的特征感知模块，用于基于自注意力感知网络对所述低级特征图依次进行多次特征感知，得到高级特征图；

特征融合模块，连接所述低级特征提取模块和所述高级特征提取模块，用于将所述低级特征图和所述高级特征图进行融合，得到最终的点云特征图。

在本发明的一个实施例中，每个所述特征感知模块包括多个级联的特征提取单元，每个所述特征提取单元均包括一个自注意力感知层和一个多层感知机。

本发明的有益效果：

1、本发明首先对图像进行低级特征提取，然后通过采用具有多处级联结构的自注意力感知网络对低级特征图进行高级特征提取，进而联合低级特征和高级特征得到最终的特征图；该方法同时兼顾了原始图像的高级特征与低级特征，充分利用了原始点云的三维信息，有效防止了在多层特征提取下丢失低级特征的问题，提高了特征对原始数据的表达能力，进而提升了后续检测精度和效率；

2、本发明引入的自注意力机制，还能够有效学习图像整体结构的关系，进一步提升了特征对原始数据的表达能力，提高了后续的检测精度。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于多头自注意力的激光点云特征提取方法的流程示意图；

图2是本发明实施例提供的基于级联的自注意力感知网络进行特征提取的工作原理图；

图3是本发明实施例提供的一个特征感知模块的进行特征提取的工作原理图；

图4是本发明实施例提供的对每个图像块进行相对位置编码的过程示意图；

图5是本发明实施例提供的利用Softmax函数对每个图像块的得分进行归一化处理的过程示意图；

图6是本发明实施例提供的一种基于多头自注意力的激光点云特征提取装置的结构示意图；

图7是本发明实施例提供的单个特征感知模块的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1是本发明实施例提供的一种基于多头自注意力的激光点云特征提取方法的流程示意图，具体包括：

步骤1：获取激光雷达的原始点云信息。

具体地，可以通过激光雷达扫描获得原始点云数据。

步骤2：对原始点云信息进行体素分割，得到深度图。

在本实施例中，可利用文献“Lang A H,Vora S,Caesar H,et al.Pointpillars:Fast encoders for object detection from point clouds[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:12697-12705.”所公开的方法，对原始点云信息进行2D体素化，得到2D深度图，详细过程在此不做说明。

步骤3：对深度图进行低级特征提取，得到低级特征图。

具体地，可以利用第一卷积层对深度图进行低级特征提取，得到低级特征图；其中，第一卷积层包括一个3*3卷积核。

在本实施例中，低级特征主要指经过简单特征提取包含更多与图片相关的纹理、几何、色彩、轮廓等细节信息的初级特征。

步骤4：基于级联的自注意力感知网络对低级特征图依次进行多次特征感知，得到高级特征图。

在本实施例中，图像的高级特征是指具有更强语义信息的特征。

具体地，自注意力感知网络包括多个级联的特征感知模块和第二卷积层；其中，第二卷积层包括一个3*3卷积。

例如，请参见图2，图2是本发明实施例提供的基于级联的自注意力感知网络进行特征提取的工作原理图。其中，自注意力感知网络包括四个级联的特征感知模块和一个3*3卷积。

相应的，步骤4则具体包括：

41)依次利用多个特征感知模块对低级特征图进行特征感知；

42)利用第二卷积层，也即3*3卷积对最后一级特征感知模块的输出进行处理，得到高级特征图。

进一步地，每个特征感知模块包括多个级联的特征提取单元和第三卷积层；其中，第三卷积层包括一个3*3卷积核。

例如，请参见图3，图3是本发明实施例提供的一个特征感知模块的进行特征提取的工作原理图，其中，该特征感知模块包括四个级联的特征提取单元以及一个3*3卷积。

具体地，在步骤41)中，每个特征感知模块对低级特征图进行特征感知的具体过程包括：

41-3)利用第一级特征提取单元对当前级特征感知模块的输入进行特征提取；

41-2)将当前级特征提取单元的输出作为下一级特征提取单元的输入，依次进行特征提取；

41-3)利用第三卷积层对最后一级特征提取单元的输出进行特征提取，得到当前特征感知模块的输出。

更具体的，每个特征提取单元包括自注意力感知层和多层感知机，如图3所示，则在本实施例中，每个特征提取单元对输入特征的处理过程包括：

a)利用自注意力感知层对当前特征提取单元的输入进行处理，得到第一特征图；

b)将当前特征提取单元的输入和第一特征图进行融合处理，得到第二特征图；

c)利用多层感知机对第二特征图进行处理，得到第三特征图；

d)将第三特征图和第二特征图进行融合处理，得到当前特征提取单元的输出。

在本实施例中，步骤a)具体包括：

a1)设置通道数为C，窗口大小为M，以将当前特征提取单元的输入图像划分为M×M×C个图像块。

具体地，设输入图像的尺寸为H×W×C，C为通道数，设定窗口大小为M，则图像可以被拆分为

个M×M×C的图像块。

a2)利用自注意力感知层中的权重矩阵集计算每个图像块的单头注意力值Q、K、V。

具体地，自注意力感知层中包含8组权重矩阵集，每组权重矩阵集中都各自包含W_Q、W_K和W_V三个权重矩阵，这些矩阵的参数可以在后续训练过程中被完善，对于每个图像块，将其分别与三个权重矩阵相乘，即可得到单头注意力值Q、K和V。由于存在8组权重矩阵集，对每个输入可以通过计算得到8组Q、K、V特征。

a3)根据单头注意力值计算每个图像块与其他图像块之间的得分。

具体地，得到Q、V、K特征之后，对于每一个图像块，需要计算其与其他图像块之间的得分，这项参数表示当对某个位置上的图像块进行编码时，需要将多少注意力放在输入的其他图像块上。分数的计算是取当前被计算图像块的Q，以及其他图像块的K，取两者的点积作为得分，则计算公式为：

Score_i→j＝Q_i·K_j

其中，Score_i→j指第i个图像块对第j个图像块的分数，Q_i表示第i个图像块的单头注意力Q值，K_j表示第j个图像块的单头注意力K值。

a4)对每个图像块进行相对位置编码，得到编码矩阵。

在本实施例中，是为了防止训练过程中标签泄露，需要让某一图像块的自注意力计算只依靠其前面的图像块，而不依靠之后的图像块。实现方式为一个上三角矩阵，上三角区域恰好对应要屏蔽的部分，为-∞，下三角区域为0。例如，以4个图像块为例，其相对位置编码过程如图4所示。

a5)利用Softmax函数对每个图像块的得分进行归一化处理。

具体地，首先，利用步骤a4)生成的编码矩阵对注意力关系进行编码，然后利用softmax函数进行归一化处理。

例如，继续以4个图像块为例，其归一化处理过程可以采用图5表示，其中，AB是指的前面a3)步图像块A对图像块B的得分，同理AC、AD就是A对C和D的得分，然后加上a4)步的编码矩阵，并做softmax，得到归一化后的得分。由于编码之后不需要分配注意力的位置变成负无穷了，那么softmax之后这些位置刚好是0。ab表示softmax之后的A对B得分。

a6)对归一化处理后图像块计算其标准自注意力。

具体地，继续以上述四个图像块为例，则A图像块的标准自注意力就是aa×Va+ab×Vb+ac×Vc+ad×Vd。

对所有图像块均执行步骤a3)-a6)，则可得到所有图像块的标准自注意力。

a7)将计算得到的标准自注意力进行聚合，得到第一特征图。

具体地，由于步骤a2)中说明了有八组矩阵集，则对于每个图像块，最后会有8组标准自注意力，将这八组标准自注意力聚合为一组，得到第一特征图。

更进一步地，请继续参见图3，其中，每个特征提取单元还包括第一归一化层和第二归一化层，即图3中的层归一化1和层归一化2，其中

第一归一化层具体用于在利用自注意力感知层对当前特征提取单元的输入进行处理之前，对当前特征提取单元的输入进行归一化处理；

第二归一化层具体用于在利用多层感知机对第二特征图进行处理之前，对第二特征图进行归一化处理。

在本实施例中，第一归一化层和第二归一化层均是对数据进行层归一化处理。具体地，层归一化就是把数据归一化处理到一个均值为0，方差为1的分布，主要作用是保证各层输入的数据分布是一样的。由于在后续训练过程中，每批训练数据的分布是不一样的，如果不加归一化处理，则会导致网络训练过程中难以收敛。

进一步地，在本实施例中，多层感知机包括两个全连接层和一个GELU激活函数。

具体地，多层感知机本身也是一种特征提取的方式。在整个网络中，采用一个包含两个隐藏层的多层感知机，用以提取自注意力感知层中各个图像块输出的内在联系。

步骤5：将低级特征图和高级特征图进行融合，得到最终的点云特征图。

本发明提供的基于多头自注意力的激光点云特征提取方法首先对图像进行低级特征提取，然后通过采用具有多处级联结构的自注意力感知网络对低级特征图进行高级特征提取，进而联合低级特征和高级特征得到最终的特征图；该方法同时兼顾了原始图像的高级特征与低级特征，充分利用了原始点云的三维信息，有效防止了在多层特征提取下丢失低级特征的问题，提高了特征对原始数据的表达能力，进而提升了后续检测精度和效率，此外，本发明引入的自注意力机制，还能够有效学习图像整体结构的关系，进一步提升了特征对原始数据的表达能力，提高了后续的检测精度。

实施例二

在上述实施例一的基础上，本实施例提供了一种基于多头自注意力的激光点云特征提取装置，用于实现上述实施例一的方法。具体地，请参见图6，图6是本发明实施例提供的一种基于多头自注意力的激光点云特征提取装置的结构示意图，其包括：

数据获取模块1，用于获取激光雷达的原始点云信息；

体素分割模块2，用于对原始点云信息进行体素分割，得到深度图；

低级特征提取模块3，用于对深度图进行低级次特征提取，得到低级特征图；

高级特征提取模块4，包括多个级联的特征感知模块，用于基于自注意力感知网络对低级特征图依次进行多次特征感知，得到高级特征图；

特征融合模块5，连接低级特征提取模块3和高级特征提取模块4，用于将低级特征图和高级特征图进行融合，得到最终的点云特征图。

进一步地，请参见图7，图7是本发明实施例提供的单个特征感知模块的结构示意图，其中，每个特征感知模块包括多个级联的特征提取单元，每个特征提取单元均包括一个自注意力感知层和一个多层感知机。

此外，每个特征提取单元还包括两个归一化层，分别连接在自注意力感知层和多层感知机之前，如图7所示。

优选的，在本实施例中，高级特征提取模块4具体包括四个级联的特征感知模块，最后一级特征感知模块还连接有一个3*3卷积。每个特征感知模块包括四个级联的特征提取单元，最后一级特征提取单元也连接有一个3*3卷积。

本实施例提供的基于多头自注意力的激光点云特征提取装置可用于实现上述实施例一提供的方法，详细过程参见上述实施例一，在此不做赘述。

由此，本实施例提供的装置在进行特征提取时，同时兼顾了原始图像的高级特征与低级特征，充分利用了原始点云的三维信息，有效防止了在多层特征提取下丢失低级特征的问题，提高了特征对原始数据的表达能力，进而提升了后续检测精度和效率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多头自注意力的激光点云特征提取方法，其特征在于，包括：

步骤1：获取激光雷达的原始点云信息；

步骤2：对所述原始点云信息进行体素分割，得到深度图；

步骤3：对所述深度图进行低级特征提取，得到低级特征图；

2.根据权利要求1所述的基于多头自注意力的激光点云特征提取方法，其特征在于，步骤3具体包括：利用第一卷积层对所述深度图进行低级特征提取，得到低级特征图；其中，所述第一卷积层包括一个3*3卷积核。

3.根据权利要求1所述的基于多头自注意力的激光点云特征提取方法，其特征在于，在步骤4中，所述自注意力感知网络包括多个级联的特征感知模块和第二卷积层；其中，所述第二卷积层包括一个3*3卷积；

则步骤4具体包括：

4.根据权利要求3所述的基于多头自注意力的激光点云特征提取方法，其特征在于，每个所述特征感知模块包括多个级联的特征提取单元和第三卷积层；其中，所述第三卷积层包括一个3*3卷积核；

利用第一级特征提取单元对当前级特征感知模块的输入进行特征提取；

5.根据权利要求4所述的基于多头自注意力的激光点云特征提取方法，其特征在于，每个所述特征提取单元包括自注意力感知层和多层感知机；则每个特征提取单元对输入特征的处理过程包括：

6.根据权利要求5所述的基于多头自注意力的激光点云特征提取方法，其特征在于，利用所述自注意力感知层对当前特征提取单元的输入进行处理，得到第一特征图，包括：

Score_i→j＝Q_i·K_j

对每个图像块进行相对位置编码，得到编码矩阵；

利用Softmax函数对每个图像块的得分进行归一化处理；

对归一化处理后图像块计算其标准自注意力；

将计算得到的标准自注意力进行聚合，得到第一特征图。

7.根据权利要求5所述的基于多头自注意力的激光点云特征提取方法，其特征在于，每个所述特征提取单元还包括第一归一化层和第二归一化层；

8.根据权利要求5所述的基于多头自注意力的激光点云特征提取方法，其特征在于，所述多层感知机包括两个全连接层和一个GELU激活函数。

9.一种基于多头自注意力的激光点云特征提取装置，其特征在于，包括：

数据获取模块(1)，用于获取激光雷达的原始点云信息；

体素分割模块(2)，用于对所述原始点云信息进行体素分割，得到深度图；

低级特征提取模块(3)，用于对所述深度图进行低级次特征提取，得到低级特征图；

高级特征提取模块(4)，包括多个级联的特征感知模块，用于基于自注意力感知网络对所述低级特征图依次进行多次特征感知，得到高级特征图；

特征融合模块(5)，连接所述低级特征提取模块(3)和所述高级特征提取模块(4)，用于将所述低级特征图和所述高级特征图进行融合，得到最终的点云特征图。

10.根据权利要求9所述的基于多头自注意力的激光点云特征提取装置，其特征在于，每个所述特征感知模块包括多个级联的特征提取单元，每个所述特征提取单元均包括一个自注意力感知层和一个多层感知机。