CN116935233B

CN116935233B - 用于激光雷达的目标检测方法和装置

Info

Publication number: CN116935233B
Application number: CN202311190003.1A
Authority: CN
Inventors: 吴青松; 王颖辉; 李敏丽; 张磊
Original assignee: Hanbo Semiconductor Shanghai Co ltd
Current assignee: Hanbo Semiconductor Shanghai Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-12
Anticipated expiration: 2043-09-15
Also published as: CN116935233A

Abstract

本发明提供了一种用于激光雷达的目标检测方法和装置。其中，该方法包括设定卷积核锚点，构建空间位置索引矩阵与稀疏特征图，然后采用与卷积核尺寸相同的滑动窗口在稀疏特征图中提取活跃点，并根据提取活跃点的结果计算活跃点卷积，接着进行目标检测并输出结果。本发明所提供的技术方案不仅提出了能够用于任意卷积核大小的卷积核锚点，还对现有的子流形稀疏卷积进行了改进，从而不仅能够高效利用已有硬件单元进行计算并实现基于子流形稀疏卷积的网络的端侧部署，还减少了CPU设备的交互通信并能够直接在推理设备中完成全网络的推理，从而既提高了推理速度和吞吐率，也降低了推理硬件电路设计的复杂度。

Description

用于激光雷达的目标检测方法和装置

技术领域

本发明涉及目标检测技术领域，尤其涉及一种用于激光雷达的目标检测方法和装置。

背景技术

激光雷达是一种主动式精确物体位置获取装置，其广泛应用于自动驾驶、高级辅助驾驶、机器人、工业质检、安防等领域。激光雷达主要用于目标检测、跟踪、分割、识别、分类等任务。为实现以上任务，各类相关的算法被提出。这些算法可以分为传统算法和基于机器学习的算法。相较于基于机器学习的激光雷达算法，传统算法具有简单、高效的特点，但也存在精度不足、误检漏检高、通用性鲁棒性较弱等问题。而基于机器学习的激光雷达算法则大大提高了传统算法的精度和识别准确率，也提升了通用性和鲁棒性，但其具有相对较大的计算需求，对部署硬件的要求更高，这也给算法的实用性带来了挑战。

与二维图像数据对真实世界投影得到致密的矩阵数据形式不同，激光雷达通过接收激光器发射的激光照射到物体形成的反射，计算出激光器距离物体的位置信息，并记录接收激光的反射强度。每个接收到的激光反射的点会产生一行由三维位置信息和反射系数为主的测量记录。多个激光器在同一时刻发送接收多束激光反射，并以机械旋转或电子扫描的方式变换激光发送接收扫描位置，完成对某一指定空间的扫描，形成一帧的数据。这些数据可表示为一个二维矩阵，矩阵的行表示该扫描空间返回的所有测量，矩阵的列表示三维位置信息和反射系数等。矩阵的列一般保持固定，而矩阵的行随着接收的返回激光点数量不一样而变化。

卷积神经网络是一种基于卷积操作的神经网络算法，其在各类图像、视频的分类、检测、跟踪、分割等任务中具有良好的效果，并取得了广泛的应用。为了将卷积神经网络引入三维激光雷达数据处理，需要对激光雷达数据进行结构化，然后才能利用卷积网络来提升各类任务的性能。通过对扫描空间进行二维或多维的格栅化划分，可将激光雷达数据投影到二维或多维网格中，从而形成结构化数据。针对投影到同一网格的数据，可进行一系列预处理，如截断、取均值等方式，进一步提取出特征化数据。这些规整的网格化特征数据，可以直接输入二维或多维卷积神经网络处理。

然而，由于空间的遮挡、反射衰减等因素，激光雷达采集的数据投影至网格时无法填满所有网格，这就导致存在大量空的网格，即产生了大量为空的数据，因而有效数据的占比会相对较小。此时，激光雷达数据呈现出稀疏性的特点，若使用传统的卷积计算进行操作，则会导致大量算力浪费在空数据（通常填零处理）上。

针对上述激光雷达数据具有稀疏性的特点，稀疏卷积网络和子流形稀疏卷积网络被提出。其中，稀疏卷积网络只计算有效数据的卷积并据此提高了计算效率，但其存在稀疏特征有效区域膨胀（dilation）的问题，这导致特征数据的稀疏性随着层数的增加而逐渐降低，也使得计算效率大大降低。针对稀疏卷积网络存在的膨胀问题，子流形卷积网络提出仅在卷积核中心存在有效数据的点进行卷积计算，从而不但保持了特征数据的稀疏性、维持了高效的计算效率，同时也保持了目标任务上的精度。子流形稀疏卷积组成的神经网络常应用于各类端侧设备上，如无人车、具有辅助驾驶功能的汽车、车路协同路口设备、机器人等，这些设备通常仅支持算力、功耗有限的计算设备。基于领域专用架构（Domain SpecificArchitecture，DSA）的推理设备能够支持各类端侧任务，以较低功耗支持低延迟、高算力。

然而，现有技术的子流形稀疏卷积应用于激光雷达数据时还存在一些问题：

首先，现有技术的子流形稀疏卷积一般在1×1或3×3卷积核上以卷积核中心位置作为标的定义活跃点，并据此计算卷积。对于一般形状的卷积核并没有考虑，因此难以应用于一般形状的卷积核计算；

其次，现有技术的子流形稀疏卷积网络中，通常需要通过构建哈希表及规则手册等方式来对数据实现映射以及索引，并拷贝整合稀疏数据来计算卷积，这一过程通常较慢，且一般需使用中央处理器生成，还需要与推理设备频繁通信，这就导致了整体速度较慢、效率低下；

再次，现有技术的子流形稀疏卷积使用了特殊的数据表示方法，相比于图像可用单一张量的形式，激光雷达数据需要采用数据张量、位置索引以及额外的元数据（如栅格大小、测量范围等）构建的特殊数据结构体来共同表示一帧数据。这些数据也会造成算法部署的困难。如常见的图形处理器部署工具TensorRT并不具备支持以上特殊数据结构体的能力，也不支持基于此数据体的稀疏卷积的操作，这就导致部署效率大大降低。并且，由于无法在实际设备中高效部署，子流形卷积算法的优点也无法得到实际应用；

最后，除了图形处理器，端侧部署常见的领域专用架构设备中，通常具有高效的卷积引擎、矩阵乘加单元以及协处理器，主要针对致密的图像数据进行加速计算，因此现有技术中的子流形稀疏卷积在领域专用架构等专用推理计算设备中，实现难度大、效率偏低，无法有效地利用现有计算资源来执行。

发明内容

鉴于此，本发明提供了一种用于激光雷达的目标检测方法及装置，以用于解决现有技术中的上述技术问题。

根据本发明的一个方面，提供了一种用于激光雷达的目标检测方法，其中，该目标检测方法包括以下步骤：

S1：将激光雷达反射的点云数据作为目标检测的输入数据，每行输入数据包括一个空间目标激光反射点的空间位置信息；

S2：判断输入数据的数据稀疏性，若数据稀疏性小于预设稀疏性阈值则执行S3，否则执行S4至S7；

S3：采用稠密卷积网络计算输入数据的卷积，然后将卷积的结果作为目标检测特征数据并执行S8；

S4：设定卷积核中的任一位置点为卷积核锚点；

S5：根据输入数据构建稀疏特征图，稀疏特征图/>中的每个点表示一行输入数据；

S6：采用与卷积核尺寸相同的滑动窗口在稀疏特征图中获取活跃点，其中活跃点的获取方式为：

滑动窗口在稀疏特征图上滑动的过程中，当稀疏特征图/>上的非零点与卷积核锚点相重合时，则将非零点记为活跃点；

S7：根据获取活跃点的结果计算活跃点卷积作为目标检测特征数据；

S8：根据目标检测特征数据获得激光雷达目标检测结果。

根据本发明的另一个方面，提供了一种用于激光雷达的目标检测装置，其中，该目标检测装置包括以下模块：

数据获取模块，被配置为将激光雷达反射的点云数据作为目标检测的输入数据，每行输入数据包括一个空间目标激光反射点的空间位置信息；

稀疏性判断模块，被配置为判断输入数据的数据稀疏性，若数据稀疏性小于预设稀疏性阈值则执行第一卷积计算模块，否则执行锚点设定模块至检测模块；

第一卷积计算模块，被配置为采用稠密卷积网络计算输入数据的卷积，然后将卷积的结果作为目标检测特征数据并执行检测模块；

锚点设定模块，被配置为设定卷积核中的任一位置点为卷积核锚点；

特征构建模块，被配置为根据输入数据构建稀疏特征图，稀疏特征图/>中的每个点表示一行输入数据；

活跃点提取模块，被配置为采用与卷积核尺寸相同的滑动窗口在稀疏特征图中获取活跃点，其中活跃点的获取方式为：

第二卷积计算模块，被配置为根据获取活跃点的结果计算活跃点卷积作为目标检测特征数据；

检测模块，被配置为根据目标检测特征数据获得激光雷达目标检测结果。

根据本发明的又一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，其中，存储器用于存储可执行指令；一个或多个处理器被配置为经由可执行指令来实现上述的方法。

根据本发明的再另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，使处理器执行上述的方法。

从以上技术方案可以看出，本发明所提供的技术方案至少存在以下优点：

1. 本发明所提供的技术方案提出了卷积核锚点的概念以用于定义任意卷积核大小的子流形稀疏卷积操作，拓展了子流形卷积的定义；

2. 本发明所提供的技术方案高效利用已有硬件单元（如稠密卷积引擎或矩阵乘加引擎）来计算子流形稀疏卷积，实现了基于子流形稀疏卷积的网络的端侧部署；

3. 本发明所提供的技术方案避免采用现有技术中利用中央处理器（CPU）构建哈希表和规则手册（rulebook）的做法，减少了CPU设备的交互通信并能够直接在推理设备中完成全网络的推理，从而不仅提高了推理速度和吞吐率，也降低了推理硬件的复杂度；

4. 本发明所提供的改进的子流形稀疏卷积方案作为一种基础算子可用于构建众多激光雷达、深度相机的神经网络架构。本发明所提供的技术方案将推动子流形稀疏卷积在自动驾驶、高级辅助驾驶、车路协同、安防领域、机器人等领域的实际应用。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，但并不构成对本发明技术方案的限制。

图1示出了3×3子流形稀疏卷积中以卷积核中心定义的活跃点与非活跃点图；

图2示出了子流形稀疏卷积的操作示意图；

图3示出了本发明示例性实施例所提供的方法的流程图；

图4示出了本发明示例性实施例所提供的方法中活跃点的提取示意图；

图5示出了本发明示例性实施例所提供的方法中空间位置索引矩阵以及稀疏特征图/>的示意图；

图6示出了本发明示例性实施例中采用的基于稠密卷积硬件引擎的子流形卷积计算的示意图；

图7示出了本发明示例性实施例中采用的分模式计算的示意图；

图8示出了本发明示例性实施例中S3采用的计算方法的示意图；

图9示出了本发明示例性实施例中稀疏嵌入卷积检测算法的整体结构图；

图10示出了本发明示例性实施例中稀疏嵌入卷积检测算法基础骨干架构中的子流形卷积层示意图；

图11示出了本发明示例性实施例所提供的装置的结构框图；

图12示出了本发明示例性实施例所提供的电子设备的结构框图。

具体实施方式

下面将参照附图来详细描述本发明的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，并不作为对本发明及其应用或使用的任何限制。本发明能够以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本发明透彻且完整，并且向本领域技术人员充分表达本发明的范围。

除非明确表明，如果未特意限定要素的数量，则该要素可以是一个也可以是多个。术语“多个/若干”意指两个或更多，术语“基于”应解释为“至少部分地基于”，术语“和/或”以及“……中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。另外，“第一”、“第二”等类似表述仅出于描述目的，而非指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。

为便于清楚描述本发明提供的用于激光雷达的目标检测方法和装置，以下部分对稀疏特征图、活跃点、卷积核锚点以及子流形系数卷积的概念进行解释说明。

稀疏特征图（Sparse feature map）：特征图是卷积神经网络（ConvolutionalNeural Networks, CNN）中卷积层的输出，其包括卷积滤波器从输入图像或信号中提取的特征。在二维或N维特征图中，当某一特征点或体素中存在非零元素时，则认为该特征点或体素为非零点；当某一特征点或体素中不存在非零元素（即所有元素均为零）时，则认为该特征点或体素为零点/空点。若某一特征图中存在大量零点/空点，则认为该特征图为稀疏特征图，即本发明中的稀疏特征图。

活跃点（Active site）：卷积核所在的卷积滑动窗口在特征图上滑动计算卷积过程中，若卷积核锚点与非零点重合，则该特征图锚点所对应的点记为活跃点，否则为非活跃点。

请参考图1，其示出了3×3子流形稀疏卷积中以卷积核中心定义的活跃点与非活跃点图。灰色块表示特征图中的非零值，白色块表示特征图中的空值或零值。

若以3×3卷积核中心点为锚点，由于实线表示的3×3卷积滑动窗口与非零点1中心重合，因此该卷积滑动窗口中心（锚点）对应的特征图中的点为活跃点；由于虚线表示的卷积滑动窗口内虽有非零值，但中心为空（或零），因此该卷积滑动窗口中心（锚点）对应的特征图中的点为非活跃点。需要说明的是，以卷积核中心定义的活跃点仅为本发明提出的活跃点的一种特殊情况，本发明中子流形稀疏卷积支持使用任意卷积核大小。

卷积核锚点：现有技术中的子流形稀疏卷积通常在尺寸为1×1或3×3的卷积核上以卷积核的中心位置作为标的定义活跃点，并据此计算卷积。然而这种定义方式并未考虑除上述尺寸外的其他一般尺寸的卷积核。与现有技术存在显著区别的是，本发明所提供的技术方案引入了新的卷积核定义方式。即，本发明提出的技术方案能够支持任意的卷积核大小，包括但不限于常见的等，与现有技术通常仅支持 1×1或3×3尺寸的卷积核存在明显不同。具体而言，本发明中的卷积核锚点定义方式为：针对任意二维卷积核或N维卷积核，定义卷积核中任意一个固定位置为锚点，该锚点可用于定义子流形卷积计算中的活跃点与非活跃点。本发明对子流形稀疏卷积操作在任意卷积核大小上进行了扩展，并提出了卷积核锚点的概念，延宽了活跃点的定义。

子流形稀疏卷积：是一种仅在活跃点上计算卷积的操作，其余区域即使存在非零元素，只要卷积核锚点为非活跃点则忽略。请参考图2，其示出了子流形稀疏卷积的操作示意图。图中以“”标示的网格为非零点，图中以“×”标示的网格为卷积输出点，白色网格为零点或空点。子流形稀疏卷积仅当卷积核（图中以黑色加粗框线标示）的卷积核锚点与灰色非零点重合时才计算卷积，其余区域不计算卷积并可用零表示。也就是说，子流形稀疏卷积仅在活跃点位置上输出，非活跃点上无输出，输入特征图与输出特征图上的锚点位置保持完全一致。

相对于稠密卷积或稀疏卷积的非零区域的卷积计算，子流形稀疏卷积降低了卷积操作数目，同时避免了稠密卷积或稀疏卷积带来的特征膨胀效应，并能够保持卷积后特征图的稀疏性。此外，传统子流形稀疏卷积计算依赖构建哈希表和规则手册的方法，需要中央处理器的参与计算并与推理卡交互通信，这使得在推理设备中增加了额外的通信开销，存在效率较低的问题。空间位置信息包括所述输入数据在N维空间中每一维度上的坐标值。

请参考图3，其示出了本发明示例性实施例所提供的方法的流程图。本发明所提出的用于激光雷达的目标检测方法包括以下步骤：

S4：设定卷积核中的任一位置点为卷积核锚点；

S8：根据目标检测特征数据获得激光雷达目标检测结果。

请一并参考图4，其示出了本发明示例性实施例所提供的方法中活跃点的提取示意图。图4中左侧的“1”、“2”、“3”、“4”表示3×3子流形稀疏卷积活跃点，图4中右侧的“1”、“2”、“3”、“4”表示与子流形稀疏卷积活跃点相对应的卷积滑动窗口内提取的有效特征，虚线网格表示边缘补零。然后，针对图4中右侧每个活跃点对应的卷积滑动窗口内的数据计算3×3卷积。

如图5所示，其示出了本发明示例性实施例所提供的方法中空间位置索引矩阵以及稀疏特征图/>的示意图。

假定卷积核大小为，输入数据为稀疏数据或稀疏特征，输入数据的行数为，输入通道数为，输入数据可依次排列表示为的矩阵，空间位置索引矩阵可表示为的矩阵（2维或N维空间网格），其中为输入数据的总行数（同样也是空间位置索引矩阵索引号的总个数，每个索引号与一行输入数据一一对应），为对应特征的空间维度（二维或N维，若为二维则为2，若为三维则为3，以此类推）。稀疏特征图表示输入数据的稀疏特征图与输入数据之间的映射关系。当为3时，空间位置索引矩阵所携带的空间位置信息将包括输入数据在x轴、y轴以及z轴三维上分别对应的坐标值，此时稀疏特征图构建为二维坐标系形式。

具体而言，稀疏特征图的构建方式为：根据空间位置索引矩阵/>中携带的输入数据的空间位置信息，对于其中每一个非零点，则在其与稀疏特征图/>相对应的坐标位置上放置非零输入数据在空间位置索引矩阵/>中的索引号，对于其中每一个零点输入数据，则放置与非零输入数据的索引号不冲突的数值。举例而言，放置的与非零输入数据的索引号不冲突的数值可以是任意负值，也可以是大于输入数据的个数的正值。以图5为例，空间位置索引矩阵/>中第0号索引、第1号索引、第2号索引分别存在非零输入数据（x₀，y₀，z₀），（x₁，y₁，z₁），（x₂，y₂，z₂），则在分别与稀疏特征图/>相对应的坐标位置（x₀，y₀），（x₁，y₁），（x₂，y₂）中放置非零点的行号，即图4中以箭头指出的0、1、2。实际上，空间位置索引矩阵/>也可携带更多的信息，如稀疏特征图所对应的实际三维空间的绝对位置等信息。空间位置索引矩阵/>中每行的数据与相应行的索引一一对应。

当网络结构中存在上采样或下采样操作时，稀疏数据或特征本身以及其对应空间索引位置将发生变化，此时需重构索引。由于网络结构在推理时已经确定，因此导致空间索引变化的算子对数据或特征的变换是已知的。在构建网络特征图与数据索引时，可依据网络结构图预计算索引是否变化，以及如何变化，提前计算好所有的索引位置，加快推理速度。针对子流形卷积的活跃点卷积计算，本发明提出了基于稠密卷积硬件引擎的子流形卷积计算、基于矩阵乘加的子流形卷积计算以及分模式计算多种计算方式。以下部分将对这三种不同的计算方式进行解释说明。

请参考图6，其示出了本发明示例性实施例中采用的基于稠密卷积硬件引擎的子流形卷积计算的示意图。

为了利用AI推理芯片中的硬件卷积操作或算子，可以提取活跃点对应的滑动窗口内的特征数据，并将特征数据排列成新的特征图。以3×3卷积为例，假设有个特征窗，则可排列成或等形式。例如在图6中的情况下，则可以排列成或的形式。新特征图的排列方式可依据推理硬件支持的最高效方式进行排列，从而提高执行效率。

在执行卷积过程中，依据步幅（stride）参数可有两种方案。方案一选择采用stride=（m, n），则输出仅包括有效数据。方案二选择步幅stride=（1, 1），则输出包括有效数据和无效数据。如果下一层计算只需要有效点数据，可提取活跃点或直接采用方案一。如下一轮卷积仍为子流形稀疏卷积，则可对无效数据置零，并拷贝活跃点数据至其他引用该数据的卷积滑动窗口内，如图6中所示，计算完成后，特征窗1中的第2号数据需从特征窗2中的活跃点2拷贝过来，特征窗2中的第1号数据需从特征窗1中的活跃点1拷贝过来。此时数据已经准备好下一轮卷积计算，可省略S1、S2以节约内存拷贝时间，从而进一步提高计算效率。

基于矩阵乘加的子流形卷积计算（以3×3的子流形稀疏卷积为例，但不仅限于3×3卷积核）可分为以下几个步骤：

1）将S2中提取的3×3特征窗与特征维度展平（flatten）；

2）将3×3卷积核展平；

3）采用通用矩阵乘的方式对特征矩阵与卷积核矩阵进行计算；

4）完成一层子流形稀疏卷积的计算。

本发明所提供的方法能够适用于不同硬件或硬件（加速）计算方法。基于稠密卷积硬件引擎的子流形卷积计算与基于矩阵乘加的子流形卷积计算这两种计算方式在实际运用中可自由选择组合使用。概而言之，对于仅有稠密卷积硬件的处理单元来说，基于稠密卷积硬件引擎的子流形卷积的方式计算；对于仅有矩阵乘加硬件的处理单元来说，可以基于矩阵乘加的子流形卷积的方式来计算；如果硬件具有且支持两种模式，则可依据输入数据的特点，选择效率更高的方法或组合方式计算。

请参考图7，其示出了本发明示例性实施例中采用的分模式计算的示意图。

为了进一步提高卷积的计算效率，本发明还提出一种分模式计算方法。具体而言，该方法依据滑动窗口内非零点不同的位置构成情况将卷积分解为不同的稀疏模式，并提取与各个不同的稀疏模式相对应的卷积核权重中的非零点位置的权重，然后分别计算卷积。以图7中的滑动窗口的稀疏模式为例进行说明，其中黑色块为非零数据，白色块为空（或零）数据。例如，当存在一个非零点时根据其位置构成情况可提取出一种有效的卷积，记作模式一；当存在两个非零点时根据该两点的位置构成情况可提取出三种有效的卷积，分别记作模式二、模式三以及模式四。依次类推，可以知道在滑动窗口中存在种稀疏模式。

在卷积中，由于存在种不同的稀疏模式，实际运算中可依据一种或多种实际因素考量选择某一种或多种模式来计算。比如按稀疏模式中非零元素个数排序后选择前种（）模式特殊计算，余下采取全部点计算。或考虑卷积通道数，卷积通道数少时采用全部点计算，卷积通道数多时采用前述的分模式计算方法计算，提高整体计算效率。比如的子流形稀疏卷积，仅锚点非零时使用卷积计算，余下均使用卷积来计算。

此外，本领域技术人员知晓，由于接收数据的稀疏性会随着观测对象、位置等因素变化，当输入数据变稠密时，使用稀疏算法计算的代价将大大增加。为此，本发明提出了能够判断数据是否满足稀疏性并根据判断结果进行处理的方法。即，在发现新输入数据以及数据索引、稀疏性发生变化时，可依据数据索引的总个数和特征图大小等信息，计算出输入数据的数据稀疏性，并将数据稀疏性与稀疏性阈值对比来进行判断。稀疏性阈值可依据稀疏与稠密计算模式的效率、延迟、能耗等因素来设定。

请一并参考图8，其示出了本发明示例性实施例中S3采用的计算方法的示意图。S3中采用稠密卷积网络计算输入数据的卷积时，需要将输入数据或输入特征映射至特征图，并将特征图中的空数据位置置零，然后利用稠密卷积算子对特征图计算卷积。此外，稠密卷积计算会得出膨胀的结果，将导致与子流形稀疏卷积结果不一致。为保证稠密卷积网络的计算结果与子流形稀疏卷积结果一致，在稠密卷积操作之后，还应该将非活跃点位置的数据置空（或零），例如采用与掩膜相乘等方式，并得到最终的等价结果。在输入数据变稠密的情况下，稠密卷积计算加置零操作的效率比直接利用子流形稀疏卷积计算更高。即，S3的处理方式能够综合提高整体方案的效率。

因此，本发明所提供的技术方案使用修改的稠密卷积在稠密数据时替代子流形稀疏卷积，保证了在稠密数据时的延迟稳定性，避免了这种情形下突然的延迟增大，并提高了硬件的执行效率。

在一个优选实施例中，为进一步降低延迟、提高吞吐率，本发明还提供了一种流水线式处理方法。即根据推理硬件的核数、并发数等特性将特征图分块，并以流水线的方式分别执行本发明所提供的加速部署方法，不仅提高了内存拷贝、卷积计算的效率，同时还可与下一级算子融合，从而进一步提高整体的吞吐，降低整体延迟。

具体而言，在S3执行完毕将要执行S4之前还执行以下步骤：

将稀疏特征图分解为多个子块，然后将多个子块分别作为新的稀疏特征图/>并同时执行S4至S5。

并且，本发明提出的子流形卷积算子计算过程数值上保持与原算法一致，可直接用于部署，不需要重新训练或微调。本发明提供的这种对基础算子进行高效计算的方法与装置，可被任意使用本算子的算法部署时使用。

例如，本发明所提供的方法可应用于稀疏嵌入卷积检测三维目标检测算法。稀疏嵌入卷积检测算法（Sparsely Embedded Convolutional Detection，SECOND）是一种基于激光雷达或者深度相机数据的三维物体检测算法。稀疏嵌入卷积检测算法提出了使用稀疏卷积的方法替代传统的三维卷积，大大降低了检测算法的计算量。该算法降低了传统三维卷积的计算量，可以更好的处理各种环境中的目标检测感知任务，提高了检测的准确性和检测速度，在机器人、自动驾驶、车路协同中具有极高的实用价值。

请参考图9与图10，其分别示出了本发明示例性实施例中稀疏嵌入卷积检测算法的整体结构图以及稀疏嵌入卷积检测算法基础骨干架构中的子流形卷积层示意图。

稀疏嵌入卷积检测算法首先对点云数据首先进行预处理并生成体素（voxel）特征及体素对应坐标，然后进一步进行体素特征提取（voxel feature extractor）。提取体素特征后，稀疏嵌入卷积检测算法使用稀疏卷积层（主要包括稀疏卷积与子流形稀疏卷积）来作为基础骨干网络，实现进一步的特征抽取，基础骨干网络提取的特征最后通过区域生成网络（Region Proposal Network，RPN）结构和检测头（包括分类、坐标回归、方向分类）实现对三维目标的检测，生成类别、三维框等信息。

如图10所示，在稀疏嵌入卷积检测算法的基础骨干网络中，使用子流形稀疏卷积层及后续批归一化和修正线性单元（Rectified linear unit，ReLU）激活函数作为重要的特征抽取方法。本发明提出的子流形稀疏卷积可用于其中子流形稀疏卷积层的计算。

原算法中通过构建改进的规则手册，并以聚集-通用矩阵乘-发散（Gather-GEMM-Scatter）的方式计算，改善了原来基于哈希表与规则手册的计算方式，可在通用图形处理器（GPU）中部署，但仍存在限制，比如在非图形处理器推理设备中无法有效利用卷积引擎来高效计算。

针对稀疏嵌入卷积检测算法中的稀疏卷积层模块，通过使用本发明提供的子流形稀疏卷积计算方法计算其子流形稀疏卷积层（SubMConv），可实现该算法在人工智能加速器中的高效计算。进一步地，还可以使用本发明所扩展的不同子流形卷积核组合，来提升稀疏嵌入卷积检测算法本身的精度，并降低计算量。此外，本发明提供的算法，使其更易于在边缘（Edge）端侧的推理设备中部署，更高效的利用推理设备中现有的物理引擎，提升推理效率。

例如，本发明所提供的方法可应用于基于多尺度深度残差网络（MDRNet）的激光雷达检测算法。

多尺度深度残差网络（Rethinking Dimensionality Reduction in Grid-based3D Object Detection，MDRNet）提出了一种基于子流形稀疏卷积的通用骨干网络，提升了检测的精度，在国际公开的自动驾驶数据集KITTI和nuScenes上取得了领先的结果。多尺度深度残差网络中既存在三维稀疏子流形卷积层，也存在二维子流形卷积层。对此，可使用本发明提出的计算方法在具有硬件卷积或矩阵乘加引擎的推理终端设备中实现这两类子流形卷积算子的高效的计算。借助本发明所提供的技术方案部署该算法，能够促进自动驾驶算法速度与精度的提升，提高自动驾驶算法的水平。

另外，结合本发明所提供的加速部署方法，可构建一个包括子流形稀疏卷积网络的高效运行的感知终端系统，该系统包括：算法模型、激光雷达数据输入、一个或多个人工智能推理芯片、中央处理器、存储介质和输出接口。部署过程包括：

1. 模型编译和转换：通过编译算法，依据本发明提供的子流形稀疏卷积计算过程，将通用的子流形卷积模型编译为人工智能推理芯片适用的二进制指令和数据；

2. 推理计算：系统接收激光雷达数据存储于内存中，中央处理器调度人工智能推理芯片，对于网络中的其他层计算，依据相应的算法计算，针对网络中的子流形卷积算子，采用本发明提供的算法计算，计算结束将处理结果返回上层感知应用。

请参考图11，其示出了本发明示例性实施例所提供的装置的结构框图。

本发明还提供了一种用于激光雷达的目标检测装置。具体地，本发明所提供的用于激光雷达的目标检测装置包括以下模块：

锚点设定模块，被配置为设定卷积核中的任一位置点为卷积核锚点；特征构建模块，被配置为根据输入数据构建稀疏特征图，稀疏特征图/>中的每个点表示一行输入数据；

活跃点提取模块，被配置为采用与卷积核尺寸相同的滑动窗口在稀疏特征图中获取活跃点，其中活跃点的获取方式为：滑动窗口在稀疏特征图/>上滑动的过程中，当稀疏特征图/>上的非零点与卷积核锚点相重合时，则将非零点记为活跃点；

应当理解，图11中所示的装置可以与本说明书前文描述的方法相对应。由此，上面针对方法描述的操作、特征和优点同样适用于本发明所提供的装置及其包括的模块，上面针对装置及其包括的模块描述的操作、特征和优点同样适用于本发明所提供的方法。为了简洁起见，某些操作、特征和优点将不再赘述。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本发明技术方案中各个模块的功能也可以分为多个模块进行实现，和/或多个模块的至少一些功能可以组合成单个模块进行实现。本发明技术方案中特定模块执行动作的方式包括，该特定模块本身执行动作，或者由该特定模块调用或以其他方式访问执行动作（或结合该特定模块一起执行动作）。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。

除上述技术方案外，本发明还提供了一种电子设备，该电子设备包括一个或多个处理器以及用于存储可执行指令存储器。其中，该一个或多个处理器被配置为经由可执行指令来实现上述方法。本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，使得处理器执行上述方法。在本说明书的以下部分，将结合图12来描述前述电子设备、计算机可读存储介质的说明性示例。

图12示出了可以被用来实施本发明所描述的方法的电子设备300的示例配置。本发明技术方案也可以全部或至少部分地由电子设备300或类似设备/系统实现。电子设备300可以是各种不同类型的设备。电子设备300的示例包括但不限于：台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备、可穿戴设备、娱乐设备、电视或其他显示设备、汽车计算机等。

电子设备300可包括能够通过系统总线311或其他适当的连接彼此通信的至少一个处理器302、存储器304、（多个）通信接口309、显示设备301、其他输入/输出（I/O）设备310以及一个或更多大容量存储设备303。

处理器302可以是单个或多个处理单元，所有处理单元可以包括单个或多个计算单元或多个核心。处理器302可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除其他能力之外，处理器302可被配置成获取并且执行存储在存储器304、大容量存储设备303或其他计算机可读介质中的计算机可读指令，例如操作系统305或应用程序306或其他程序307的程序代码等。

存储器304和大容量存储设备303是用于存储指令的计算机可读存储介质的示例，指令由处理器302执行来实施前面所描述的各种功能。举例来说，存储器304一般可以包括易失性存储器和非易失性存储器二者。此外，大容量存储设备303一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘、存储阵列、网络附属存储、存储区域网等。存储器304和大容量存储设备303在本发明中都可以被统称为存储器或计算机可读存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可以由处理器302作为被配置成实施在本发明的示例中所描述的操作和功能的特定机器来执行。

多个程序可以存储在大容量存储设备303上。这些程序包括操作系统305、一个或多个应用程序306、其他程序307和程序数据308，并且它们可以被加载到存储器304以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下部件/功能的计算机程序逻辑（例如，计算机程序代码或指令）：本发明所提供的方法（包括该方法的任何合适的步骤）和/或本发明描述的另外的实施例。

虽然在图12中被示成存储在电子设备300的存储器304中，但模块化的操作系统305、应用程序306、其他程序307和程序数据308或者其部分可以使用可由电子设备300访问的任何形式的计算机可读介质来实施。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。通信介质包括例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质以及能传播能量波的无线介质。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质中的已调制数据信号。

例如，计算机可读存储介质可包括以用于存储如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括但不限于，易失性存储器，例如随机存储器（RAM、DRAM、SRAM）；以及非易失性存储器，例如闪存、各种只读存储器（ROM、PROM、EPROM、EEPROM）、磁性和铁磁/铁电存储器（MRAM、FeRAM）；以及磁性和光学存储设备（硬盘、磁带、CD、DVD）；或其它已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

一个或多个通信接口309用于通过如网络、直接连接等与其他设备交换数据。此通信接口可以是以下各项中的一个或多个：任何类型的网络接口、有线或无线（如WLAN）接口、Wi-MAX接口、以太网接口、USB接口、蜂窝网络接口、Bluetooth接口、NFC接口等。通信接口309可以促进在多种网络和协议类型内的通信，其中包括有线网络和无线网络、因特网等。通信接口309还可提供与例如存储阵列、网络附属存储、存储区域网等中的外部存储设备（图中未示出）的通信。

在一些示例中，可以包括例如监视器的显示设备301，以用于向用户显示信息和图像。其他I/O设备310可以是接收用户输入并向用户提供输出的设备，并且可以包括触摸/手势输入设备、摄影机、键盘、遥控器、鼠标、音频输入/输出设备等。

本发明描述的技术方案可以由电子设备300的这些各种配置来支持，并且不限于本发明所描述的技术方案的具体示例。前文及附图中对本发明作出的说明和描述并非限制性的，对本领域技术人员而言，显然本发明不限于上述示例性实施例的细节，在不背离本发明精神或基本特征的情况下，也能够以其他的具体形式实现本发明。因此，本发明所要求保护的范围由权利要求而非上述说明限定，落在权利要求的等同要件含义和范围内的所有变化均涵盖在本发明的保护范围内。

Claims

1.一种用于激光雷达的目标检测方法，其特征在于，所述目标检测方法包括以下步骤：

S2：判断所述输入数据的数据稀疏性，若所述数据稀疏性小于预设稀疏性阈值则执行S3，否则执行S4至S7；

S3：采用稠密卷积网络计算所述输入数据的卷积，然后将卷积的结果作为目标检测特征数据并执行S8；

S4：设定卷积核中的任一位置点为卷积核锚点；

S5：根据所述输入数据构建稀疏特征图，所述稀疏特征图中的每个点表示一行输入数据；

S6：采用与所述卷积核尺寸相同的滑动窗口在所述稀疏特征图中获取活跃点，其中所述活跃点的获取方式为：

所述滑动窗口在所述稀疏特征图上滑动的过程中，当所述稀疏特征图上的非零点与所述卷积核锚点相重合时，则将所述非零点记为活跃点；

S7：对通过S6中所述获取方式获得的与所述卷积核锚点相重合的活跃点进行卷积计算，计算结果作为目标检测特征数据；

S8：根据所述目标检测特征数据获得激光雷达目标检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，所述输入数据为稀疏数据或稀疏特征。

3.根据权利要求1所述的目标检测方法，其特征在于，所述输入数据以空间位置索引矩阵标识，所述空间位置索引矩阵包括与所述输入数据中的每行输入数据分别相对应的索引号。

4.根据权利要求1所述的目标检测方法，其特征在于，所述空间位置信息包括所述输入数据在x轴、y轴以及z轴三维上分别对应的坐标值。

5.根据权利要求4所述的目标检测方法，其特征在于，所述稀疏特征图构建为二维坐标系形式。

6.根据权利要求5所述的目标检测方法，其特征在于，所述稀疏特征图的构建方式为：

根据所述输入数据的空间位置信息，对于每行非零输入数据，在其与所述稀疏特征图相对应的坐标位置上放置所述非零输入数据的索引号，对于每行零点输入数据，则放置与非零输入数据的索引号不冲突的数值。

7.根据权利要求6所述的目标检测方法，其特征在于，所述与非零输入数据的索引号不冲突的数值包括任意负值或大于输入数据总个数的正值。

8.根据权利要求1所述的目标检测方法，其特征在于，所述S7中计算活跃点卷积的方法包括基于稠密卷积硬件引擎的子流形卷积计算，所述基于稠密卷积硬件引擎的子流形卷积计算包括提取所述活跃点对应的滑动窗口内的特征数据，并将特征数据排列成新的特征图，然后再执行卷积。

9.根据权利要求1所述的目标检测方法，其特征在于，所述S7中计算活跃点卷积的方法包括基于矩阵乘加的子流形卷积计算，所述基于矩阵乘加的子流形卷积计算包括将滑动窗口、特征维度以及卷积核展平，然后采用通用矩阵乘对特征矩阵与卷积核矩阵进行计算并完成一层子流形稀疏卷积的计算。

10.根据权利要求1所述的目标检测方法，其特征在于，所述S7中计算活跃点卷积的方法包括分模式计算，所述分模式计算包括依据滑动窗口内非零点的模式将/>卷积分解为不同的类型，并提取与各个不同的类型相对应的卷积核权重中的非零点位置的权重，然后分别计算卷积。

11.根据权利要求3所述的目标检测方法，其特征在于，所述数据稀疏性根据所述空间位置索引矩阵中索引号的总个数以及所述稀疏特征图的大小计算得出。

12.根据权利要求1所述的目标检测方法，其特征在于，所述目标检测方法还包括：

将所述稀疏特征图分解为多个子块，然后将所述多个子块分别作为新的稀疏特征图并同时执行S4至S8。

13.一种用于激光雷达的目标检测装置，其特征在于，所述目标检测装置包括以下模块：

稀疏性判断模块，被配置为判断所述输入数据的数据稀疏性，若所述数据稀疏性小于预设稀疏性阈值则执行第一卷积计算模块，否则执行锚点设定模块至检测模块；

第一卷积计算模块，被配置为采用稠密卷积网络计算所述输入数据的卷积，然后将卷积的结果作为目标检测特征数据并执行检测模块；

特征构建模块，被配置为根据所述输入数据构建稀疏特征图，所述稀疏特征图中的每个点表示一行输入数据；

活跃点提取模块，被配置为采用与所述卷积核尺寸相同的滑动窗口在所述稀疏特征图中获取活跃点，其中所述活跃点的获取方式为：

第二卷积计算模块，被配置为对通过所述活跃点提取模块中所述获取方式获得的与所述卷积核锚点相重合的活跃点进行卷积计算，计算结果作为目标检测特征数据；

检测模块，被配置为根据所述目标检测特征数据获得激光雷达目标检测结果。

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，其用于存储可执行指令；

所述一个或多个处理器被配置为经由所述可执行指令来实现权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使所述处理器执行权利要求1至12中任一项所述的方法。