CN116994240A

CN116994240A - 一种基于注意力机制的三维目标检测系统

Info

Publication number: CN116994240A
Application number: CN202311258898.8A
Authority: CN
Inventors: 华炜; 刘雪莹; 马也驰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03
Anticipated expiration: 2043-09-27
Also published as: CN116994240B

Abstract

本申请提出了一种基于注意力机制的三维目标检测系统，包括用于执行感兴趣区域选择及骨干网络特征提取操作的跨模型特征提取模块，用于将低分辨率特征图与局部高分辨率特征图进行融合得到融合后特征的跨模型特征融合模块，对未增加融合网络的单模型检测网络进行训练的训练模块，用于向低分辨率检测网络模型输入点云数据得到检测结果或输入高分辨率感知区域进行高分辨率特征提取和特征融合的推理模块。通过在原有检测模型的基础上融合一个增强感知区域的模型，在增强感知区域的选取中参考路径规划、高精度地图等多模态数据进行增强感知区域的划分。实现保证原有检测精度的同时，提升对增强感知区域的检测效果。

Description

一种基于注意力机制的三维目标检测系统

技术领域

本发明涉及三维目标检测中特征融合技术领域，尤其是涉及一种基于注意力机制的三维目标检测系统。

背景技术

随着自动驾驶技术的兴起，3D目标检测越来越受到关注，激光雷达点云很好地提供了三维世界的丰富信息，成为3D目标检测的首选输入数据形式。现阶段自动驾驶领域基于点云的3D目标检测的主流方法包括PointPillar、CenterPoint、3DSSD等，但是上述方法存在的问题是：首先，上述方法没有定位感兴趣区域的能力，对输入点云的所有区域都相同对待，导致在一些不关注的区域浪费了计算资源，对需要关注的区域没有增强感知；其次，对单一的输入进行特征提取，在实车场景中，为了保证网络模型能够实时推理，模型输入的体素的分辨率不能过高，这会导致检测精度的下降。

发明内容

为解决现有技术的不足，本发明参考人类视觉系统中的选择性注意力机制，对感兴趣区域进行选择，增强感兴趣区域的感知，同时输入低分辨率全局点云和高分辨率感兴趣区域点云，进行特征提取和特征融合，再使用融合后的特征进行检测，对需要关注的区域进行增强感知，提高感兴趣区域的检测精度。

本发明采用如下的技术方案：

第一方面，本申请提供了一种基于注意力机制的三维目标检测系统，所述三维目标检测系统包括：

跨模型特征提取模块，用于执行感兴趣区域选择及骨干网络特征提取操作，得到低分辨率特征图和局部高分辨率特征图；

跨模型特征融合模块，用于将所述低分辨率特征图与所述局部高分辨率特征图进行融合得到融合后特征，并基于注意力引导损失机制进行模型融合；

训练模块，对未增加融合网络的单模型检测网络进行训练，向训练后的所述单模型检测网络中增加高分辨率特征提取网络和融合网络，基于得到的网络进行训练；

推理模块，用于向所述低分辨率检测网络模型输入点云数据得到检测结果，或输入高分辨率感知区域进行高分辨率特征提取和特征融合，基于融合后的特征输出检测结果。

在其中一个实施例中，所述跨模型特征提取模块，用于基于选择性注意力机制参考包括路径规划、高精度地图在内的模块信息，对多模块信息进行整合划分出感兴趣区域。

在其中一个实施例中，所述跨模型特征提取模块，用于将全局点云数据和所述感兴趣区域的点云数据进行体素化处理，经过骨干网络得到低分辨率特征图和局部高分辨率特征图。

在其中一个实施例中，所述经过骨干网络得到低分辨率特征图和局部高分辨率特征图，包括：

向所述骨干网络输入低分辨率点云划分体素时最小单元格尺寸是，输入高分辨率点云划分体素时最小单元格尺寸是/>；

其中，、/>分别为最小单元格的宽度、长度，/>的取值范围根据具体情况设置，/>的值越大，表明高分辨率点云体素的分辨率越高；

经过所述骨干网络的提取，得到低分辨率特征图以及高分辨率特征图。

在其中一个实施例中，所述跨模型特征提取模块，还用于经过卷积处理将高分辨率特征的通道数设置为和低分辨率特征通道相同，将对应的高分辨率区域的位置替换为高分辨率特征，组成新的有增强感知区域的局部高分辨率特征图。

在其中一个实施例中，所述特征融合模块包括不同分辨率特征融合模块和注意力引导损失模块。

在其中一个实施例中，所述不同分辨率特征融合模块用于将低分辨率特征图、所述局部高分辨率特征图进行展平处理，经过层归一化和线性映射，完成特征融合。

在其中一个实施例中，所述注意力引导损失模块具体用于构建交叉注意力矩阵和注意力引导损失函数。

在其中一个实施例中，所述训练模块用于先训练不增加融合网络的单模型检测网络，将单模型检测网络的特征提取和检测头部分参数冻结；

再增加高分辨率特征提取网络和融合网络，进行训练，并保存模型。

在其中一个实施例中，所述推理模块用于两种使用场景：

对于不输入高分辨率增强感知区域的场景，不经过所述跨模型特征融合模块，输入点云数据直接送入低分辨率检测网络模型，输出检测结果；

对于输入高分辨率感知区域的场景，进行高分辨率特征提取和特征融合，输出融合后的检测结果。本发明通过多模型融合的机制，在原有检测模型的基础上，融合一个增强感知区域的模型，在增强感知区域的选取中，参考路径规划、高精度地图等多模态数据，进行增强感知区域的划分。在训练中保证原有检测模型的检测能力，同时增加高分辨率特征提取网络和融合网络的训练，保证原有检测精度的同时，可以提升对增强感知区域的检测效果，节省算力，并且可以灵活的选择特征提取网络，实用性强。

附图说明

图1是一个实施例中基于注意力机制的三维目标检测系统的应用环境图；

图2是基于注意力机制的三维目标检测系统的结构示意图；

图3是跨模型特征提取模块的工作流程示意图；

图4是构建训练网络的流程示意图；

图5是构建特征融合网络的流程示意图；

图6是网络推理的流程示意图；

图7是实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于注意力机制的三维目标检测系统，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是智能汽车、机器人、机械臂等搭载激光雷达等设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请提供了一种基于注意力机制的三维目标检测系统20，如图2所示，所述三维目标检测系统包括：

跨模型特征提取模块22，用于执行感兴趣区域选择及骨干网络特征提取操作，得到低分辨率特征图和局部高分辨率特征图；

跨模型特征融合模块24，用于将所述低分辨率特征图与所述局部高分辨率特征图进行融合得到融合后特征，并基于注意力引导损失机制进行模型融合；

训练模块26，对未增加融合网络的单模型检测网络进行训练，向训练后的所述单模型检测网络中增加高分辨率特征提取网络和融合网络，基于得到的网络进行训练；

推理模块28，用于向所述低分辨率检测网络模型输入点云数据得到检测结果，或输入高分辨率感知区域进行高分辨率特征提取和特征融合，基于融合后的特征输出检测结果。

在实施中，通过多模型融合的机制，在原有检测模型的基础上，融合一个增强感知区域的模型，将不同骨干网络提取的两个特征张量进行融合，并计算监督交叉注意力矩阵，通过注意力机制，将低分辨率输入网络中的全局语义信息和高分辨率输入网络中的丰富细节特征融合。在增强感知区域的选取中，参考路径规划、高精度地图等多模态数据，进行增强感知区域的划分。在训练中保证原有检测模型的检测能力，同时增加高分辨率特征提取网络和融合网络，保证原有检测精度的同时，可以提升对增强感知区域的检测效果，节省算力，并且可以灵活的选择特征提取网络，实用性强。

其中，选择性注意力机制，该机制对感兴趣区域进行选择，选择依据为路径规划、高精度地图等模块信息，对多模态信息进行整合，为感兴趣区域的划分提供依据。

在其中一个实施例中，所述跨模型特征提取模块22用于执行如图3所示的技术方案：

S32，基于选择性注意力机制参考包括路径规划、高精度地图在内的模块信息，对多模块信息进行整合划分出感兴趣区域。

S34，将全局点云数据和所述感兴趣区域的点云数据进行体素化处理，经过骨干网络得到低分辨率特征图和局部高分辨率特征图。

S36，经过卷积处理将高分辨率特征的通道数设置为和低分辨率特征通道相同，将对应的高分辨率区域的位置替换为高分辨率特征，组成新的有增强感知区域的局部高分辨率特征图。

其中，骨干网络由低分辨率骨干网络和高分辨率骨干网络两个并行网络模型构成，分别提取不同分辨率、不同空间大小的输入的特征。

模块的输入分别是低分辨率全局点云数据和高分辨率增强感知区域点云数据，两个骨干网络可以组织为相似的网络架构，也可以组织为不相似的网络架构，输入低分辨率点云划分体素时最小单元格尺寸是，输入高分辨率点云体素数据来源于低分辨率点云体数据的局部感兴趣区域，最小单元格尺寸是/>，分别经过骨干网络特征提取后，下采样的倍数分别为/>和/>，w表示单元格宽度，h表示单元格长度。

经过骨干网络下采样，输入的低分辨率和高分辨率点云数据中的目标在最后的特征层的尺度保持一致。

其中，不同分辨率特征融合模块用于将低分辨率特征图、所述局部高分辨率特征图进行展平处理，经过层归一化和线性映射，完成两个特征图特征融合。

首先，低辨率特征图经过一个self-attention层，然后将低分辨率特征图展平为/>，将高分辨率特征图/>展平为/>，经过层归一化和线性映射，得到三个特征/>,特征融合如公式（1）、公式（2）所示：

公式（1）

公式（2）

融合后的特征Z经过两组线性映射和残差连接，并恢复为尺寸。

高分辨率特征的组织方式，经过不同骨干网络进行特征提取后，得到的特征尺寸大小是不同的，高分辨率输入提取的特征是低分辨率输入提取的特征的局部区域，需要将高分辨率输入提取的特征嵌入到低分辨率的全局特征中，参考前文中高分辨率输入的划分位置，复制一份低分辨率特征，将对应的高分辨率区域的位置替换为高分辨率特征，组成新的有增强感知区域的特征图。

在其中一个实施例中，所述注意力引导损失模块用于构建交叉注意力矩阵和注意力引导损失函数。

在实施中，注意力引导损失模块，该模块构建交叉注意力矩阵和注意力引导损失函数，根据特征融合的结果，交叉注意力矩阵如公式（3）所示：

公式（3）

设计一种注意力引导损失，对于尺寸为H×W的特征图M，首先展平为尺寸的/>，然后通过公式来获取注意力矩阵/>，G是真值图，HP和LP是高分辨率特征图和低分辨率特征图，分别根据上式获取注意力矩阵/>定义二元交叉熵损失如公式（4）所示：

公式（4）

其中是/>处的标注真值，/>是/>处的预测值，定义/>如公式（5）所示：

公式（5）

其中是超参，/>在像素/>处权重为/>，最终的损失函数如公式（6）所示：

公式（6）

其中。

在其中一个实施例中，所述训练模块26用于先训练不增加融合网络的单模型检测网络，将单模型检测网络的特征提取和检测头部分参数冻结；增加高分辨率特征提取网络和融合网络，进行训练，并保存模型。

在实施中，训练分两步，第一步先训练不增加融合网络的单模型检测网络，然后将单模型检测网络的特征提取和检测头部分参数冻结，第二步增加高分辨率特征提取网络和融合网络，进行训练，保存模型。

在其中一个实施例中，所述推理模块28用于：

对于不输入高分辨率增强感知区域的场景，不经过所述跨模型特征融合模块24，输入点云数据直接送入低分辨率检测网络模型，输出检测结果；

对于输入高分辨率感知区域的场景，进行高分辨率特征提取和特征融合，输出融合后的检测结果。

本发明的实施例采用的低分辨率特征提取网络为resnet18网络，高分辨率特征提取网络参考resnet18网络构建。输入高分辨率点云划分体素时最小单元格尺寸是，其中的i设置为2。

基于前述三维目标检测系统的结构，进一步提出一种基于注意力机制的三维目标检测方法，包括以下步骤：

第一步：首先构建网络输入数据，将点云数据进行体素化，投影到bev伪图像。如图4所示，对于需要增强感知的情况，构建增强感知区域范围内的高分辨率bev伪图像数据，同时构建全部感知区域的低分辨率全局bev伪图像数据，构建伪图像数据时，分别将点云密度图、点云最大长度图和点云强度图对应到伪图像的R、G、B三个通道，作为网络的输入，全局感知范围是：在自车坐标系中，x轴方向（自车向前方向）：-50~50m，y轴方向（自车向左方向）：-25~25m，z轴方向（自车向上方向）：-2.73~1.27m。低分辨率输入的尺寸为3×1216×608，高分辨率输入的尺寸与增强感知区域大小相关。

第二步，构建特征提取网络。如图4所示，特征提取网络包括低分辨率特征提取网络（图4上半部分）和高分辨率特征提取网络（图4下半部分），这里采用相同的Resnet18网络结构进行特征提取，网络结构如下表1所示（以低分辨率输入为例）：

表1 Resnet18网络结构

其中，residual+x为残差连接结构，取低分辨率输入的RBlock2特征图作为低分辨率特征图（长度为152，宽度为304，通道数为64）。取高分辨率的RBlock4输出的特征图（尺寸为512×w×h），再经过一个卷积层（卷积核尺寸为3×3,步长为1×1，填充为1×1，通道数为64），得到特征尺寸为64×w×h，转化成与低分辨率特征统一的通道数，复制一份低分辨率特征，将对应的高分辨率区域的位置替换为高分辨率特征，得到有增强感知区域的局部高分辨率特征图/>（长度为152，宽度为304，通道数为64）。

第三步，构建特征融合网络。如图5所示，特征融合模块首先将低分辨率特征图经特征展平为/>，将局部高分辨率特征图经特征展平为/>，经过层归一化和线性映射，得到三个特征/>，特征融合如公式（1）、公式（2）所示：

公式（1）

公式（2）

进一步地，特征融合模块通过注意力引导损失模块，指导模型融合过程。该模块构建交叉注意力矩阵和注意力引导损失函数，根据特征融合的结果，交叉注意力矩阵公式（3）所示：

公式（3）

公式（4）

公式（5）

公式（6）

其中。

第四步，构建训练网络并进行网络训练。构建训练网络如图4所示，对于低分辨率数据，输入点云数据在经过RBlock模块后，特征尺寸变为原始数据的1/16，然后特征进入四层上采样网络，恢复到原始尺寸；对于高分辨率数据，经过在经过RBlock模块后，将高分辨率的RBlock4模块输出特征和低分辨率RBlock2模块输出特征进行第三步中的特征融合，

训练模块26分为两个步骤，第一步先训练不增加融合网络的单模型检测网络，然后将单模型检测网络的特征提取和检测头部分参数冻结，第二步增加高分辨率特征提取网络和融合网络，进行训练，保存模型。

第五步，进行网络推理。如图6所示，推理模块28在模型推理时有两种情况，一种是不输入高分辨率增强感知区域，即不需要增强感知，这时候模型不进入特征融合模块，输入点云数据直接送入低分辨率检测网络模型，输出检测结果；一种是输入高分辨率感知区域，即需要增强感知，这时候模型进行高分辨率特征提取和特征融合，输出融合后的检测结果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

上述基于注意力机制的三维目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储录制的激光雷达数据和网络模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力机制的三维目标检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（MagnetoresistiveRandom Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccessMemory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的三维目标检测系统，其特征在于，所述三维目标检测系统包括：

2.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述跨模型特征提取模块，用于基于选择性注意力机制参考包括路径规划、高精度地图在内的模块信息，对多模块信息进行整合划分出感兴趣区域。

3.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述跨模型特征提取模块，用于将全局点云数据和所述感兴趣区域的点云数据进行体素化处理，经过骨干网络得到低分辨率特征图和局部高分辨率特征图。

4.根据权利要求3所述的基于注意力机制的三维目标检测系统，其特征在于，所述经过骨干网络得到低分辨率特征图和局部高分辨率特征图，包括：

5.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述跨模型特征提取模块，还用于经过卷积处理将高分辨率特征的通道数设置为和低分辨率特征通道相同，将对应的高分辨率区域的位置替换为高分辨率特征，组成新的有增强感知区域的局部高分辨率特征图。

6.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述特征融合模块包括不同分辨率特征融合模块和注意力引导损失模块。

7.根据权利要求6所述的一种基于注意力机制的三维目标检测系统，其特征在于，所述不同分辨率特征融合模块用于将低分辨率特征图、所述局部高分辨率特征图进行展平处理，经过层归一化和线性映射，完成特征融合。

8.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述注意力引导损失模块具体用于构建交叉注意力矩阵和注意力引导损失函数。

9.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述训练模块用于先训练不增加融合网络的单模型检测网络，将单模型检测网络的特征提取和检测头部分参数冻结；

10.根据权利要求1所述的基于注意力机制的三维目标检测系统，其特征在于，所述推理模块用于两种使用场景：