CN115294343B

CN115294343B - 一种基于跨位置及通道的注意力机制的点云特征增强方法

Info

Publication number: CN115294343B
Application number: CN202210819738.5A
Authority: CN
Inventors: 张新钰; 王力; 刘华平; 高涵文
Original assignee: Suzhou Jiashibao Intelligent Technology Co ltd
Current assignee: Suzhou Jiashibao Intelligent Technology Co ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2023-04-18
Anticipated expiration: 2042-07-13
Also published as: CN115294343A

Abstract

本发明涉及自动驾驶技术、机器人环境感知等领域，尤其涉及一种基于跨位置及通道的注意力机制的点云特征增强方法，所述方法包括：将点云特征输入点云特征增强模型，得到特征增强的特征矩阵；所述点云特征增强模型，基于自注意力机制，利用不同位置的不同通道元素的显式相关性实现点云特征的增强。本发明通过建模输入不同位置的不同通道元素的显式相关性进行特征重新校准，网络可以学会使用全局信息，有选择地强调信息特征，并抑制不太有用的特征；本发明将自注意表示为核特征映射的线性点积，并利用矩阵乘积的结合性来降低复杂度。

Description

一种基于跨位置及通道的注意力机制的点云特征增强方法

技术领域

本发明涉及自动驾驶技术、机器人环境感知等领域，尤其涉及一种基于跨位置及通道的注意力机制的点云特征增强方法。

背景技术

目前，随着自动驾驶研究的热度增加，三维目标检测技术在高速发展。在三维目标检测中，一种主要用到的数据是激光雷达检测到的空间物体的点云信息。由于三维点云在结构上与图像不同，无法立即应用计算机视觉中常用的标准的深度网络设计，例如基于离散卷积算子的网络。

因此，目前基于三维点云信息的目标检测算法中，一部分方法体素化三维空间，以启用三维离散卷积进行目标检测，这类方法会导致大量的计算和内存成本，并没有充分利用三维中点集的稀疏性；一部分方法设计直接对点进行操作，并通过池化算子或连续卷积传播信息；一部分方法将点集连接到用于消息传递的图中，利用图神经网络对点云进行处理。

无论是哪种方法进行三维目标检测，本质上都利用深度神经网络处理点云信息，而捕获输入数据内各部分长期依赖关系在深度神经网络中至关重要。对于顺序数据(例如，语音、语言数据)，循环操作是远程依赖建模的主要解决方案。对于图像数据，捕获其长期依赖关系是由卷积操作的深层堆叠形成的大接收域建模而得到的。卷积和递归运算都处理输入数据的一个局部邻域，无论是在空间上还是在时间上，因此，只有当这些操作被重复应用，并通过数据逐步传播信号时，才能捕获长期依赖关系。然而，不断重复这些操作有几个缺点：首先，它的计算效率很低；其次，它会造成优化困难，需要认真解决。最后，这些挑战使得长距离依赖关系建模变得困难，例如，当消息需要在长距离位置之间来回传递时。点云数据往往空间规模较大，所以对深度神经网络分析点云数据中各部分之间的关系的能力提出了更高的要求。

发明内容

本发明的目的在于克服现有技术的缺陷，提出了一种基于跨位置及通道的注意力机制的点云特征增强方法。通过学习通道中所有元素之间的显式相关性来增强点云特征的表达能力。

为了实现上述目的，本发明提出了一种基于跨位置及通道的注意力机制的点云特征增强方法，所述方法包括：

将点云特征输入点云特征增强模型，得到特征增强的特征矩阵；

所述点云特征增强模型，基于自注意力机制，利用不同位置的不同通道元素的显式相关性实现点云特征的增强。

作为上述方法的一种改进，所述点云特征增强模型包括并联的Q、K和V三个分支以及聚合模块、最终线性投影层和相加模块；其中，

所述Q、K和V三个分支，用于将输入的点云x映射到三个不同的特征空间；

所述聚合模块，用于对Q、K和V三个分支的输出进行特征聚合，对点云的不同位置不同通道的特征进行增强，得到矩阵Q'；

所述线性投影层，用于对矩阵Q'进行线性投影，并输入相加模块；

所述相加模块，用于对线性投影后的输出与输入的点云x进行相加，得到增强的特征矩阵Z。

作为上述方法的一种改进，

Q分支包括依次连接的线性投影层、展平模块和指数线性单位；Q分支的输出为Φ(Q)，其中，Φ()表示指数线性单位；矩阵Q满足下式：

Q＝flatten(xW_Q)。

式中，x表示输入的点云特征，flatten()表示将矩阵展平为向量，W_Q为x在Q映射空间的特征表达；

K分支包括依次连接的线性投影层、展平模块、指数线性单位和转置模块；K分支的输出为Φ(K)^T，其中，T表示转置，矩阵K满足下式：

K＝flatten(xW_K)

式中，W_K为x在K映射空间的特征表达；

V分支包括依次连接的线性投影层和展平模块，V分支的输出为：

V＝flatten(xW_V)

式中，W_V为x在V映射空间的特征表达。

作为上述方法的一种改进，所述聚合模块对Q分支的输出Φ(Q)，K分支的输出Φ(K)^T，以及V分支的输出V，进行特征聚合，对点云的不同位置不同通道的特征进行增强，得到矩阵Q'满足下式：

Q'＝Φ(Q)(Φ(K)^TV)。

作为上述方法的一种改进，所述相加模块对线性投影后的输出Q'W_Q'与输入的点云x进行相加，得到增强的特征矩阵Z：

Z＝x+Q′W_Q'

式中，W_Q'为线性投影层的参数。

一种基于跨位置及通道的注意力机制的点云特征增强系统，所述系统包括：特征增强模块和点云特征增强模型；其中，

所述特征增强模块，用于将点云特征输入点云特征增强模型，得到特征增强的特征矩阵；

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上述所述的方法。

与现有技术相比，本发明的优势在于：

1、本发明通过建模输入中不同位置的不同通道元素的显式相关性进行特征重新校准，通过这种机制，网络可以学会使用全局信息，有选择地强调信息特征，并抑制不太有用的特征；

2、本发明将自注意表示为核特征映射的线性点积，并利用矩阵乘积的结合性来降低复杂度。

附图说明

图1是本发明的基于自注意力机制的特征增强模型示意图。

具体实施方式

受经典的非局部图像滤波方法的启发，最近提出的非局部神经网络注意力机制解决了这一挑战，它通过在单个模块中直接建模特征映射中任意两个位置之间的相关性。这种非局部方法可以大大提高现有网络在许多视频分类基准上的性能。

由于在二维计算机视觉任务中也表现良好，一些工作尝试将基于注意力机制的transformer模型应用于点云信息的处理中，transformer模型之所以适用于点云处理，是因为作为transformer网络核心的自注意力算子本质上是一个集合算子，不受输入集合内元素的排列顺序的影响。在transformer模型中，需要对每个输入的向量进行位置编码，而点云本质上是嵌入在三维空间中的向量集合，可以将原始的三维点云的位置坐标信息用于位置编码。以上这些原因使得transformer模型天然地适合点云深度学习中的信息处理。

虽然transformer是处理序列信息的强大模型，但是它的两次矩阵乘法使得计算复杂度为O(N²)，需要的时间和内存随序列长度呈二次方增长，使得transformer模型在处理长序列信息时内存和时间的消耗急剧增大。而点云信息提供的点云数量一般比较庞大，尤其是由车载激光雷达采集的数据的点云量都会达到百万级别。目前已有的许多工作都在讨论在保证性能的前提下降低transformer的计算复杂度，力图追求将transformer的计算复杂度降为O(N)，以在长序列信息处理中发挥更好的性能。同时，原始的非局部神经网络虽然性能优良，但通过合并通道只考虑全局的时空相关性，可能会错失精细但重要的跨通道线索，无法区分细粒度的物体。

针对以上问题，本发明提出的核特征映射将transformer的计算复杂度降为O(N)，同时它可以建模点云输入中不同位置的不同通道元素的显式相关性来显著增强特征。

针对上述问题提出了本发明。本发明通过建模输入中不同位置的不同通道元素的显式相关性进行特征重新校准，通过这种机制，网络可以学会使用全局信息，有选择地强调信息特征，并抑制不太有用的特征。同时由于自注意力机制本身的二次复杂度，相对于输入长度而言，对于非常长的序列来说，它的速度非常慢。为了解决这一局限性，在提出的该模块中，将自注意表示为核特征映射的线性点积，并利用矩阵乘积的结合性来降低复杂度。

应当理解，在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种基于跨位置及通道的注意力机制的点云特征增强方法。

根据本发明，提供了一种自注意力机制的特征增强模块，包含步骤如下：

步骤1、给定输入点云特征x∈R^N×F，利用三个线性投影层将输入点云映射到三个不同的特征空间：

q ＝ x W_Q (1)

k ＝ x W_K (2)

v＝ x W_V, (3)

1式中，W_Q∈R^F×D，W_K∈R^F×D，W_V∈R^F×D为映射参数q∈R^N×D，k∈R^N×D，v∈R^N×D为x在不同映射空间的特征表达，在经典的transformer中被称为查询、键和值；

步骤2、将步骤1得到的q、k和v展平，得到Q∈R^ND×1,K∈R^ND×1,V∈R^ND×1；

Q＝flatten(x W_Q)。

K＝flatten(x W_K)

式中，W_K为x在K映射空间的特征表达；

V＝flatten(x W_V)

式中，W_V为x在V映射空间的特征表达。

步骤3、经典的transformer实现一种称为softmax的特定形式的自注意，其中相似性得分是查询和键之间的点积的指数：

但是由于矩阵乘法造成的二次复杂度，用传统的自注意力机制来建模不同位置不同通道元素的相关性会造成计算量特别大，为了解决这一缺陷，将自注意表示为核特征映射的线性点积，并利用矩阵乘积的结合性来降低复杂度。

假设Q_i表示矩阵Q的第i行向量，K_j表示矩阵K的第j行向量，可以写出任何相似函数的广义注意力方程：

上式关于注意力机制的定义是通用的，可以用于其它注意力的实现比如多项式核函数、高斯核函数，值得注意的是当令

时上式与经典的transformer实现形式相同。同时，为了使上式定义一个相似函数，需要对sim()施加的唯一约束是非负的,这种相似函数包括所有的核函数k(x,y)。

根据核函数的性质，可以将式改写为：

利用矩阵乘法的结合率可以进一步写为：

当分子写成如下的向量化形式时，上面的方程更简单：

(Φ(Q)Φ(K)^T)V ＝ Φ(Q)(Φ(K)^TV), (8)

式中，Φ()是按行应用于Q和K的。

由公式可知，传统的transformer公式的计算复杂度是O(N²)，N是序列长度。内存需求也是如此，因为必须存储完整的注意力矩阵来计算关于查询、键和值的梯度。相反，提出的核特征映射的线性点积具有时间复杂度和空间复杂度O(N),因为对于每个query只需要计算一次

和

在实验中，使用如下的核函数：

Φ(x)＝elu(x)+1, (9)

式中，elu()为指数线性单位激活函数；

步骤4、将步骤2得到的Q、K和V经过公式进行特征聚合后，对点云的不同位置不同通道的特征都进行了增强：

Q'＝Φ(Q)(Φ(K)^TV) (10)

步骤5、将步骤4得到Q'的经过一个线性投影层之后，最终和输入的点云相加得到最后的输出：

Z＝x+Q′W_Q', (11)

式中，W_Q'为最终线性投影层的参数。

实施例2

一种基于跨位置及通道的注意力机制的点云特征增强系统，基于实施例1的方法实现，该系统包括：特征增强模块和点云特征增强模型；其中，

实施例3

本发明的实施例3还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例4

本发明实施例4还可提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于跨位置及通道的注意力机制的点云特征增强方法，所述方法包括：

所述点云特征增强模型，基于自注意力机制，利用不同位置的不同通道元素的显式相关性实现点云特征的增强；

所述点云特征增强模型包括并联的Q、K和V三个分支以及聚合模块、最终线性投影层和相加模块；其中，

2.根据权利要求1所述的基于跨位置及通道的注意力机制的点云特征增强方法，其特征在于，

Q＝flatten(xW_Q)，

K＝flatten(xW_K)

式中，W_K为x在K映射空间的特征表达；

V＝flatten(xW_V)

式中，W_V为x在V映射空间的特征表达。

3.根据权利要求2所述的基于跨位置及通道的注意力机制的点云特征增强方法，其特征在于，所述聚合模块对Q分支的输出Φ(Q)，K分支的输出Φ(K)^T，以及V分支的输出V，进行特征聚合，对点云的不同位置不同通道的特征进行增强，得到矩阵Q′：

Q'＝Φ(Q)(Φ(K)^TV)。

4.根据权利要求3所述的基于跨位置及通道的注意力机制的点云特征增强方法，其特征在于，所述相加模块对线性投影后的输出Q'W_Q'与输入的点云x进行相加，得到增强的特征矩阵Z：

Z＝x+Q′W_Q′

式中，W_Q'为线性投影层的参数。

5.一种基于跨位置及通道的注意力机制的点云特征增强系统，其特征在于，所述系统包括：特征增强模块和点云特征增强模型；其中，

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的方法。