CN115861632A

CN115861632A - 一种基于图卷积的视觉激光融合的三维目标检测方法

Info

Publication number: CN115861632A
Application number: CN202211640340.1A
Authority: CN
Inventors: 张新钰; 王力; 宋子盈; 张国欣; 国纪龙; 吴新刚; 李金伦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-28
Anticipated expiration: 2042-12-20
Also published as: CN115861632B

Abstract

本申请提供了一种基于图卷积的视觉激光融合的三维目标检测方法，涉及自动驾驶技术领域，该方法包括：对点云数据的每个体素块的特征向量进行图卷积操作，得到二维的体素特征；利用第一检测器对体素特征进行处理，得到原始点云ROI区域，从原始点云ROI区域提取出原始点云ROI特征；对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；在伪点云图像上获取伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；利用注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；利用第二检测器对融合后的ROI特征进行处理，得到三维目标检测框。本申请提高了三维目标检测的精度。

Description

一种基于图卷积的视觉激光融合的三维目标检测方法

技术领域

本申请涉及自动驾驶技术领域，尤其是涉及一种基于图卷积的视觉激光融合的三维目标检测方法。

背景技术

目前，三维目标检测主要采用基于图像的方法、基于激光雷达的方法和基于多模态融合的方法，而基于激光雷达的三维目标检测方法的应用最广泛，该方法易于将与目标结构相似的物体识别为目标，从而产生误识别，例如：行人的几何结构与电线杆相似，从而把电线杆误认为是行人。

现阶段也有一些方法尝试把两种模态的数据进行结合从而提升精度降低误检率。然而，实验表明现阶段部分多模态方法的精度不如单模态的方法。这是由于是数据融合时产生了一定的噪声数据，同时没有很好的提取出两种模态数据之间的关系，忽略了不同模态数据间的差异。

发明内容

有鉴于此，本申请提供了一种基于图卷积的视觉激光融合的三维目标检测方法，以解决上述技术问题。

第一方面，本申请实施例提供了一种基于图卷积的视觉激光融合的三维目标检测方法，包括：

获取当前时刻的RGB图像和点云数据；

对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；利用预先训练完成的第一检测器对二维的体素特征进行处理，得到原始点云ROI区域，从原始点云ROI区域提取出原始点云ROI特征；

对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

利用预先训练完成的注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

利用预先训练完成的第二检测器对融合后的ROI特征进行处理，得到三维目标检测框与目标类别。

进一步地，所述对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；包括：

对点云数据进行体素化处理，得到多个大小为H×W×L的体素块；H、W和L分别为一个体素块的长、宽和高；

对每个体素块采样最多N个点，不足N个点的体素块补充零数据；

计算每个体素块内的采样点的三维坐标和反射强度的平均值，得到稀疏的第一体素特征向量f_voxel，第一体素特征向量f_voxel为四维向量：

为采样点的三维坐标的平均值；/>

为采样点的反射强度的平均值；

对第一体素特征向量f_voxel进行三维稀疏卷积处理，得到8倍下采样的第二体素特征向量f_voxelBx。

进一步地，对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；

在特征空间中，将第i个第二体素特征向量f_voxelBx作为一个特征点x_i，通过KNN算法得到与特征点x_i距离最近的k个邻近特征点，将按距离升序排列后的k个邻近特征点记为：x_i1,x_i2,…,x_ik；

计算k个特征边：(x_i1-x_i),(x_ji2-x_i),…,(x_jik-x_i)，生成对应的k个第一邻近特征：(x_i,x_ji1-x_i),(x_i,x_ji2-x_i),…,(x_i,x_jik-x_i)；

利用一个全连接层和最大池化层分别对k个第一邻近特征进行处理，得到第二邻近特征；

通过自注意力机制计算每个第二邻近特征的权重，利用权重对k个第二邻近特征进行加权处理，得到特征点x_i的特征f_gcn；

对特征f_gcn进行BEV视角投影，得到二维的体素特征f_bev。

进一步地，对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；包括：

将点云数据投影到前视图视角，得到相应的稀疏深度图S_depth；

利用深度补全网络将稀疏深度图S_depth补全为密集深度图D_depth，D_depth大小为1216×352；

利用密集深度图D_depth将RGB图像转换为伪点云图像，每个伪点云图像的像元包括八个通道数据：(x,y,z,r,h,b,u,v)，其中，(x,y,z)是像元在三维空间中的坐标，(r,g,b)是像元的三个颜色值，(u,v)是像元在相机坐标下的二维坐标。

进一步地，在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；包括：

使用点云ROI区域对伪点云图像进行剪裁操作，得到伪点云ROI区域；

将伪点云ROI区域进行体素化和下采样操作，得到伪点云ROI特征P_roi；

对伪点云ROI特征P_roi进行三维稀疏卷积处理，使伪点云ROI特征P_roi与原始点云ROI特征R_roi尺度相同。

进一步地，所述注意力融合模型包括：三个线性层组成的多层感知机、sigmoid函数和拼接层；

利用预先训练完成的注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；包括：

利用多层感知机对原始点云ROI特征R_roi和伪点云ROI特征P_roi进行注意力运算得到注意力矩阵MLP(R_roi,P_roi)，MLP(·)表示多层感知机运算；

利用sigmoid函数对注意力矩阵MLP(R_roi,P_roi)进行运算，得到注意力分数S：

S＝σ(MLP(R_roi,P_roi))

其中，σ(·)表示sigmoid函数；

利用拼接层对注意力特征S·R_roi和注意力特征S·P_roi进行拼接，得到融合后的ROI特征F_fusion：

F_fusion＝CONCAT(E·R_roi,E·P_roi)

其中，CONCAT(·)表示拼接操作。

进一步地，所述方法还包括：第一检测器、全连接层、三个线性层组成的多层感知机和第二检测器进行联合训练的步骤。

第二方面，本申请实施例提供了一种基于图卷积的视觉激光融合的三维目标检测装置，包括：

获取单元，用于获取当前时刻的RGB图像和点云数据；

第一处理单元，用于对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；利用预先训练完成的第一检测器对二维的体素特征进行处理，得到原始点云ROI区域，从原始点云ROI区域提取出原始点云ROI特征；

第二处理单元，用于对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

融合单元，用于利用预先训练完成的注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

检测单元，用于利用预先训练完成的第二检测器对融合后的ROI特征进行处理，得到三维目标检测框与目标类别。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的基于图卷积的视觉激光融合的三维目标检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的基于图卷积的视觉激光融合的三维目标检测方法。

本申请能够有效地提取点云数据与RGB图像之间的特征信息，将异构的模态进行特征融合，提高了三维目标检测的精度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法的流程图；

图2为本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

随着硬件与软件技术的发展，自动驾驶技术也在不断的完善。自动驾驶中环境感知是不可缺少的一部分，环境感知是汽车通过车载传感器获取周围环境的数据，并通过一些感知算法获取数据中包含的语义信息，例如：交通信号灯检测、车道线检测和目标检测等。为了保证自动驾驶的安全性，自动驾驶系统需要获取准确的环境信息，才能做出安全的决策。三维目标检测作为环境感知任务中的重要一环，主要任务是通过传感器获取到的数据检测出三维空间中的车辆、行人等目标，其中，不仅要预测出目标的类别，还要预测出目标的位置。

现阶段主要的车载传感器有车载相机和激光雷达等。一方面，相机成本较低，所生成的图像数据携带颜色和纹理等二维信息，但由于深度信息的缺失，无法提供足够的三维信息，导致系统不能充分感知周围的环境；另一方面，激光雷达成本较高，所生成的点云数据携带深度、几何结构等三维信息。但是，点云数据所具有的特性导致算法计算起来比较困难，例如：大量且稀疏的点云会导致无效计算量的增多。

目前，国内外有大量的关于三维目标检测的研究工作，其中，主要包括基于图像的方法、基于激光雷达的方法和基于多模态融合的方法。当前阶段，基于激光雷达的三维目标检测方法占据了主要的部分，大量的工作是围绕激光雷达展开。然而，该方法也有一定的缺陷，易于把与目标结构相似的物体识别为目标，从而产生误识别，例如：行人的几何结构与电线杆相似，从而把电线杆误认为是行人。现阶段也有一些方法尝试把两种模态的数据进行结合从而提升精度降低误检率。然而，实验表明现阶段部分多模态方法的精度不如单模态的方法。这是由于融合方案导致的，融合时产生了一定的噪声数据，同时没有很好的去提取出数据与数据之间的关系。

综上所述，现阶段自动驾驶场景下的三维目标检测技术主要是通过图像或激光点云作为输入进行目标结果预测。想要实现自动驾驶中高精度的三维目标检测结果，仅使用单模态数据难以达到稳定的结果，利用不同模态数据的优势进行互补，达到高精度检测结果。然而，现阶段的大量工作表明相机图像和激光点云融合实现的三维目标检测算法并不完美，忽略了数据与数据之间的联系和不同模态间的差异。

为解决上述技术问题，本申请提供了一种基于图卷积的视觉激光融合的三维目标检测方法，可以有效地提取视觉数据与激光雷达数据之间的特征信息，将异构的模态进行特征融合，实验表明该方法可以达到高精度的三维目标检测结果。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种基于图卷积的视觉激光融合的三维目标检测方法，包括：

步骤101：获取当前时刻的RGB图像和点云数据；

通过相机和激光雷达在室外进行数据采集，得到相应的图像数据和激光点云数据以及相应的标定文件；通过标定文件将当前时刻的RGB图像和点云数据转换至同一坐标下。

步骤102：对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；利用预先训练完成的第一检测器对二维的体素特征进行处理，得到原始点云ROI(Regions of Interest，感兴趣区域)区域，从原始点云ROI区域提取出原始点云ROI特征；

其中，所述对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；包括：

对点云数据进行体素化处理，得到多个大小为H×W×L的体素块；H、W和L分别为一个体素块的长、宽和高；优选的，H＝0.05m，W＝0.05m，H＝0.1m；

对每个体素块采样最多N个点，不足N个点的体素块补充零数据；优选的，N为5；

为采样点的三维坐标的平均值；/>

为采样点的反射强度的平均值；

其中，对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；包括：

对特征f_gcn进行BEV视角投影，得到二维的体素特征f_bev。

其中，从原始点云ROI区域提取出原始点云ROI特征；包括：

将原始点云ROI区域进行体素化并进行下采样操作，得到原始点云ROI特征R_roi。

步骤103：对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

对图像数据进行预处理，为了使异构模态的数据更好的对齐，将图像转换为类点云数据，称之为伪点云(Pseudo Point Cloud)。通过将点云转换为稀疏深度图，利用深度补全网络将稀疏的深度图补全为密集深度图，再利用密集深度图为图像中的每个像素赋予深度信息，形成伪点云。

本实施例中，该步骤包括：

利用密集深度图D_depth将RGB图像转换为伪点云图像，每个伪点云图像的像元包括八个通道数据：(x,y,z,r,g,b,u,v)，其中，(x,y,z)是像元在三维空间中的坐标，(r,g,b)是像元的三个颜色值，(u,v)是像元在相机坐标下的二维坐标；

步骤104：利用预先训练完成的注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

其中，所述注意力融合模型包括：三个线性层组成的多层感知机、sigmoid函数和拼接层；

利用多层感知机对原始点云ROI特征R_roi和伪点云ROI特征P_roi进行注意力运算得到注意力矩阵MLP(R_roi,Proi)，MLP(·)表示多层感知机运算；

S＝σ(MLP(R_roi,P_roi))

其中，σ(·)表示sigmoid函数；

F_fusion＝ONCAT(E·R_roi,·P_roi)

其中，CONCAT(·)表示拼接操作。

步骤105：利用预先训练完成的第二检测器对融合后的ROI特征进行处理，得到三维目标检测框与目标类别。

在得到多个三维目标检测框后，通过非极大值抑制(Non-Maximum Suppression,NMS)进行后处理，将大量冗余的检测框去除，得到最终的目标检测结果。

此外，所述方法还包括：第一检测器、全连接层、三个线性层组成的多层感知机和第二检测器进行联合训练的步骤。

基于上述实施例，本申请实施例提供了一种基于图卷积的视觉激光融合的三维目标检测装置，参阅图2所示，本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测装置200至少包括：

获取单元201，用于获取当前时刻的RGB图像和点云数据；

第一处理单元202，用于对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；利用预先训练完成的第一检测器对二维的体素特征进行处理，得到原始点云ROI区域，从原始点云ROI区域提取出原始点云ROI特征；

第二处理单元203，用于对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；

融合单元204，用于利用预先训练完成的注意力融合模型对原始点云ROI特征和伪点云ROI特征进行处理，得到融合后的ROI特征；

检测单元205，用于利用预先训练完成的第二检测器对融合后的ROI特征进行处理，得到三维目标检测框与目标类别。

需要说明的是，本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测装置200解决技术问题的原理与本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法相似，因此，本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测装置200的实施可以参见本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法。

本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于图卷积的视觉激光融合的三维目标检测方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，包括：

获取当前时刻的RGB图像和点云数据；

2.根据权利要求1所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，所述对点云数据进行体素化处理得到多个体素块，对每个体素块进行特征提取和下采样得到特征向量；包括：

为采样点的三维坐标的平均值；/>

为采样点的反射强度的平均值；

3.根据权利要求2所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，对每个体素块的特征向量进行图卷积操作，得到二维的体素特征；

在特征空间中，将第i个第二体素特征向量f_voxelBx作为一个特征点x_i，通过KNN算法得到与特征点x_i距离最近的k个邻近特征点，将按距离升序排列后的k个邻近特征点记为：x_i1，x_i2，…，x_ik；

计算k个特征边：(x_i1-x_i)，(x_ji2-x_i)，…，(x_jik-x_i)，生成对应的k个第一邻近特征：(x_i，x_ji1-x_i)，(x_i，x_ji2-x_i)，…，(x_i，x_jik-x_i)；

对特征f_gcn进行BEV视角投影，得到二维的体素特征f_bev。

4.根据权利要求1所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，对点云数据进行处理得到密集深度图，利用密集深度图将RGB图像转换为伪点云图像；包括：

利用密集深度图D_depth将RGB图像转换为伪点云图像，每个伪点云图像的像元包括八个通道数据：(x，y，z，r，g，b，u，v)，其中，(x，y，z)是像元在三维空间中的坐标，(r，g，b)是像元的三个颜色值，(u，v)是像元在相机坐标下的二维坐标。

5.根据权利要求4所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，在伪点云图像上获取与原始点云ROI区域相同的伪点云ROI区域，从伪点云ROI区域提取出伪点云ROI特征；包括：

6.根据权利要求5所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，所述注意力融合模型包括：三个线性层组成的多层感知机、sigmoid函数和拼接层；

利用多层感知机对原始点云ROI特征R_roi和伪点云ROI特征P_roi进行注意力运算得到注意力矩阵MLP(R_roi，P_roi)，MLP(·)表示多层感知机运算；

利用sigmoid函数对注意力矩阵MLP(R_roi，P_roi)进行运算，得到注意力分数S：

S＝σ(MLP(R_roi，P_roi))

其中，σ(·)表示sigmoid函数；

F_fusion＝CONCAT(E·R_roi，E·P_roi)

其中，CONCAT(·)表示拼接操作。

7.根据权利要求6所述的基于图卷积的视觉激光融合的三维目标检测方法，其特征在于，所述方法还包括：第一检测器、全连接层、三个线性层组成的多层感知机和第二检测器进行联合训练的步骤。

8.一种基于图卷积的视觉激光融合的三维目标检测装置，其特征在于，包括：

获取单元，用于获取当前时刻的RGB图像和点云数据；

9.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于图卷积的视觉激光融合的三维目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的基于图卷积的视觉激光融合的三维目标检测方法。