CN115880659A

CN115880659A - 用于路侧系统的3d目标检测方法、装置及电子设备

Info

Publication number: CN115880659A
Application number: CN202211678466.8A
Authority: CN
Inventors: 关鹏飞
Original assignee: Yunkong Zhixing Technology Co Ltd
Current assignee: Yunkong Zhixing Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-31

Abstract

本申请公开了一种用于路侧系统的3D目标检测方法、装置及电子设备，其中所述方法包括，通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系；通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图，将激光雷达点云的体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵，使用多层VFE对拼接矩阵中的表示向量进行特征提取生成第二特征图，将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果。本申请技术方案在尽可能避免丢失关键信息的前提下，通过特征层融合降低了数据量，提高了运算速度。

Description

用于路侧系统的3D目标检测方法、装置及电子设备

技术领域

本申请涉及一种3D目标检测方法及装置，尤其涉及一种用于路侧系统的3D目标检测方法、装置及电子设备。

背景技术

路侧环境感知系统中的目标检测技术就是通过路端传感器获取周边环境信息，主要包括交通场景下的静态和动态目标信息。用于感知的常见传感器包括相机、激光雷达、毫米波雷达，传感器主要架设在桥梁或信号灯的构架上。路侧环境感知易受到天气、传感器自身局限性等多方面因素的影响，一般无法通过单一传感器实现对整体交通场景下的感知，因此需要多传感器融合的方式共同完成交通信息感知任务，但多传感器融合自身也存在很多不足和缺点。

现有技术在基于图像和点云的融合感知方法中根据融合层级不同，一般分为前期融合和后期融合两类，前期融合一般包括数据层融合和特征层融合。数据层融合不需要进行数据预处理，直接对数据进行融合，而特征层融合则首先要获得图像或点云的特征，之后再进行特征融合处理。比如先将3D点云投影到图像上，获得鸟瞰图特征和前视图特征，然后再将鸟瞰图特征、前视图特征和图像特征输入到分层融合网络中，最后将融合后的特征用于目标分类网络和3D边界框进行预测。其中数据层融合由于是直接对原始数据进行处理，故而需要很高的带宽及算力，此外对原始数据不进行预处理，融合结果也易受到错误信息干扰，鲁棒性差。而特征层融合虽然降低了数据量，提高了运算速度，但是由于对部分数据的舍弃，可能导致隐藏的关键信息丢失的问题。

发明内容

根据本申请的实施例，提供了一种用于路侧系统的目标检测方法、装置及电子设备。

在本申请的第一方面中，提供了一种用于路侧系统的目标检测方法，包括：

通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系，所述映射关系为所述相机图像的像素坐标系和所述激光雷达点云的雷达坐标系的映射关系；

通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图；

对所述激光雷达点云进行体素化处理形成多个体素；

根据所述映射关系，将所述激光雷达点云投影到所述相机图像上，使所述激光雷达点云中的多个体素与所述第一特征图中的多个位置形成一一对应关系；

将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵；

使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图；

将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果。

一些实施例中，其中所述通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图，包括：

使用COCO数据集对所述2D目标检测网络进行预训练；

使用确定路侧交通场景对应的目标检测数据集对经预训练的所述2D目标检测网络进行微调；

通过微调后的所述2D目标检测网络对所述相机图像进行特征提取生成第一特征图。

一些实施例中，其中所述2D目标检测网络采用的是Faster-RCNN结构，所述第一特征图是对所述Faster-RCNN结构中的feature map层的提取结果。

一些实施例中，其中所述对所述激光雷达点云进行体素化处理形成多个体素，包括：

将所述激光雷达点云在三维空间进行划分，设所述激光雷达点云的深高宽为(D,H,W)，使用相同尺寸的立方体对所述激光雷达点云进行划分形成多个体素，则每个所述体素的深宽高为(V_D、V_H、V_W)，所述体素的个数

将所述激光雷达点云中的每个点分配给对应的所述体素，将所述体素内部所有点的坐标的平均值记为(V_x,V_y,V_z)，则每个点体素化后的向量表示为p_i＝(x_i,y_i,z_i,r_i,x_i-V_x,y_i-V_y,z_i-V_z)，其中xyz为所述点在三维空间中的坐标，r为激光雷达的反射率；

在每个非空的所述体素中随机采样T个点，点数不足T的以0补。

一些实施例中，其中所述将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵，包括：

使用两层FCN对所述第一特征图进行降维，所述FCN使用Relu作为激活函数，并使用batch norm做归一化，所述第一特征图的维度变化过程为：512->96->16；

将所述体素的特征向量与所述第一特征图中相应位置降维后的所述特征向量拼接后生成拼接矩阵，所述拼接矩阵记为：[N,T,C]，其中N是非空体素的个数，T是体素中采样点的个数，C是所述拼接矩阵的维度，C＝7+16，其中7为所述体素特征的向量维度，16为所述第一特征图降维后的最终维度。

一些实施例中，其中所述使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图，包括：

对所述拼接矩阵使用同一个FCN层进行升维；

对升维后的所述拼接矩阵中的体素特征中的多个点云的特征向量采用最大池化处理生成一个特征向量；

将所述一个特征向量复制出所述体素特征中多个点云的点云个数份，并分别与所述多个点云的特征向量进行拼接得到第二特征图。

一些实施例中，其中所述将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果，包括：

使用3组2D卷积对输入的所述第二特征图进行3次特征图下采样，依次将所述特征图下采样到输入尺寸的1/2、1/4、1/8，形成1/2下采样特征图、1/4下采样特征图和1/8下采样特征图；

使用转置卷积分别将三个不同尺寸的下采样特征图按深度维度进行2倍的扩充，并将其中的1/4下采样特征图和1/8下采样特征图上采样到原输入尺寸的1/2倍；

将所述1/2下采样特征图按深度维度进行2倍扩充的特征图，以及所述1/4下采样特征图和所述1/8下采样特征图按深度维度进行2倍扩充后上采样到原输入尺寸1/2倍的特征图，进行拼接后输入预测部分，所述预测部分使用两个检测头分别输出置信度和3D回归框，其中每个所述检测头分别由不同尺寸的2D卷积头构成。

在本申请的第二方面中，提供了一种用于路侧系统的3D目标检测装置，包括：

映射关系获取模块，用于通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系，所述映射关系为所述相机图像的像素坐标系和所述激光雷达点云的雷达坐标系的映射关系；

第一特征图生成模块，用于通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图；

体素化处理模块，对所述激光雷达点云进行体素化处理形成多个体素；

投影模块，用于根据所述映射关系，将所述激光雷达点云投影到所述相机图像上，使所述激光雷达点云中的多个体素与所述第一特征图中的多个位置形成一一对应关系；

拼接矩阵生成模块，用于将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵；

第二特征图生成模块，用于使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图；

3D目标检测模块，用于将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果。

一些实施例中，其中所述第一特征图生成模块，包括：

预训练子模块，用于使用COCO数据集对所述2D目标检测网络进行预训练；

微调子模块，用于使用确定路侧交通场景对应的目标检测数据集对经预训练的所述2D目标检测网络进行微调；

特征提取子模块，用于通过微调后的所述2D目标检测网络对所述相机图像进行特征提取。

在本申请的第三方面中，提供了一种电子设备，包括至少一个处理器及存储器，存储器存储有程序，并且被配置成至少一个处理器执行以下步骤：

对所述激光雷达点云进行体素化处理形成多个体素；

本申请技术方案的有益的技术效果在于，通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系，根据映射关系，将激光雷达点云投影到相机图像上，使激光雷达点云中的多个体素与第一特征图中的多个位置形成一一对应关系，并使体素的特征向量与第一特征图中相应位置的特征向量以特征融合方式生成拼接矩阵，并进一步基于从该拼接矩阵中提取的第二特征图实现对3D目标的检测，在尽可能避免丢失关键信息的前提下，较大幅度地降低了数据量，提高了路侧系统3D目标的检测速度。

附图说明

图1是本申请实施例的方法流程结构示意图；

图2是本申请实施例的具体方法流程图；

图3是图2方法流程图中步骤220进一步的方法流程图；

图4是Faster-RCNN结构图；

图5是图2方法流程图中步骤230进一步的方法流程图；

图6是点云体素化示意图；

图7是VFE结构图；

图8是两层的VFE结构图；

图9是本申请实施例的装置结构框图；

图10是图7实施例中模块720的子模块结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本申请进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

技术术语：

COCO(Common Objects in Context)数据集：是一个大型的、丰富的物体检测、分割和字幕数据集。

PointNet：点云数据处理的深度网络，用于处理激光雷达点云数据。

VoxelNet：基于点云的三维空间信息逐层次学习网络。

RPN(Region Proposal Network)：用于生成候选区域(Region Proposal)的神经网络。

3D Convolutional Middle Layers：3D卷积。

3D RPN：包括3D卷积和RPN，用于生成3D候选区域的神经网络。

RCNN：将CNN(卷积神经网络)引入目标检测领域的算法模型，使用CNN来提取候选区域的特征,具体步骤包括：

①在图像中确定约1000-2000个候选框(使用选择性搜索)；

②每个候选框内图像块缩放至相同大小，并输入到CNN内进行特征提取；

③对候选框中提取出的特征，使用分类器判别是否属于一个特定类；

④对于属于某一特征的候选框，用回归器进一步调整其位置。

Fast RCNN：一种对RCNN改进算法模型，具体步骤包括：

①在图像中确定约1000-2000个候选框(使用选择性搜索)；

②对整张图片输进CNN，得到feature map；

③找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层；

④对候选框中提取出的特征，使用分类器判别是否属于一个特定类；

⑤对于属于某一特征的候选框，用回归器进一步调整其位置。

Faster RCNN：一种对RCNN更进一步的改进算法模型，具体步骤包括：

①对整张图片输进CNN，得到feature map；

②卷积特征输入到RPN，得到候选框的特征信息；

batch norm:一种网络中间层的归一化方法。

max pooling：最大池化或下采样，池化或下采样方法的一种。

Relu：激活函数的一种。

本申请技术方案主要着眼于对现有技术中特征层融合技术方案的改进。如图1所示，为了融合相机图像和激光雷达点云数据中的信息，降低数据量，提高运算速度，且不使相机图像中隐藏的关键信息丢失。本申请技术方案针对路侧系统视野固定的特点，首先采用联合标定获取摄像机图像和激光雷达点云的映射关系，然后使用一个已经训练好的2D目标检测网络对相机图像进行特征编码，主要使用其2D检测网络的最后一个卷积层提取特征，使其输出的特征图编码有相机图像的语义信息，以作为先验知识为路侧系统在后续步骤中的目标判断提供辅助。再通过标定的结果，将激光雷达点云中的点或体素投影到相机图像上，并将特征图中相应的像素特征与激光雷达点云中的点特征或体素特征连接起来作为后续3D目标检测网络的输入，以预测3D检测结果。

本申请通过提出相机图像+激光雷达点云多模式3D目标检测前融合方案中，利用图像语义特征增强点云特征，并在早期学习中就进行图像特征和点云特征的融合，从而避免图像或点云中隐藏的关键信息的丢失，最终实现了更精准、更全面的3D目标检测。

图2是本申请实施例的具体方法流程图。

如图2所示，一种用于路侧系统的3D目标检测方法，包括：

步骤210：通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系，所述映射关系为所述相机图像的像素坐标系和所述激光雷达点云的雷达坐标系的映射关系。

步骤220：通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图。

步骤230：对所述激光雷达点云进行体素化处理形成多个体素。

步骤240：根据所述映射关系，将所述激光雷达点云投影到所述相机图像上，使所述激光雷达点云中的多个体素与所述第一特征图中的多个位置形成一一对应关系。

步骤250：将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵。

步骤260：使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图。

步骤270：将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果。

一些实施例中，步骤220中通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图，可参见图3进一步的方法流程图。

如图3所示，通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图，包括：

步骤221：使用COCO数据集对所述2D目标检测网络进行预训练；

步骤222：使用确定路侧交通场景对应的目标检测数据集对经预训练的所述2D目标检测网络进行微调；

步骤223：通过微调后的所述2D目标检测网络对所述相机图像进行特征提取生成第一特征图。

图4是Faster-RCNN结构示意图。如图4所示，上述步骤221至步骤223中通过2D目标检测网络对相机图像进行特征提取生成第一特征图中，该检测网络所使用的是Faster-RCNN结构，其过程包括：使用在COCO数据集上进行预训练，然后在路侧交通场景下目标检测数据集上做微调，在网络学习的过程中RPN(Region Proposal Network)和rcnn两个模块公用底层的特征图(feature maps)作为输入，使第一特征图中对输入的相机图像进行了语义的编码，并最终使用了Faster-RCNN中的feature map层作为第一特征图的提取结果。

一些实施例中，步骤230中对所述激光雷达点云进行体素化处理形成多个体素，可参见图5进一步的方法流程图。

如图5所示，对所述激光雷达点云进行体素化处理形成多个体素，包括：

步骤231：将所述激光雷达点云在三维空间进行划分，设所述激光雷达点云的深高宽为(D,H,W)，使用相同尺寸的立方体对所述激光雷达点云进行划分形成多个体素，每个所述体素的深宽高为(VD、VH、VW)，所述体素的个数N＝；

步骤232：将所述激光雷达点云中的每个点分配给对应的所述体素，将所述体素内部所有点的坐标的平均值记为，则每个点体素化后的向量表示为，其中xyz为所述点在三维空间中的坐标，r为激光雷达的反射率；

步骤233：在每个非空的所述体素中随机采样T个点，点数不足T的以0补。

图6是激光雷达点云体素化示意图。如图6所示，上述步骤231至233中对所述激光雷达点云进行体素化处理形成多个体素，具体包括：

(1)体素划分(Voxel Partition):将激光雷达点云在三位空间进行划分，假设输入点云的深高宽为(D,H,W)，使用相同尺寸的立方体对其进行划分，每个voxel的深宽高为(VD、VH、VW)，则输入点云生成的Voxel的个数为

模型使用的VD＝0.4、VH＝0.2、VW＝0.2

(2)向量表示(Grouping)：将激光雷达点云中每个点分配给对应的体素(Voxel)，将体素内部所有点的坐标的平均值记为(V_x,V_y,V_z)，激光雷达点云体素化后的向量表示为p_i＝(x_i,y_i,z_i,r_i,x_i-V_x,y_i-V_y,z_i-V_z)，xyz为空间中的坐标，r为激光雷达的反射率。

(3随机采样(Random Sampling)：为了对每个非空的体素进行表示，在每个非空的体素中随机采样T个点，点数不足T的补0，这样可以有效的减内存占用和计算量。

一些实施例中，步骤250中所述将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵，包括：

由于特征提取部分得到的第一特征图中每个特征点的维度为512，以此维度作为下阶段输入的话会加大计算量，所以在与激光雷达点云的向量拼接前，可先对图像的特征点进行降维。本实施例中使用两层全链接网络(fully-connected network,FCN)进行降维，FCN使用Relu作为激活函数，并使用batch norm做归一化，最终的维度变化过程为：512->96->16。根据激光雷达点云和相机图像的映射关系链接点云和图像特征，实现将图像特征融合到点云中，最终的输入维度记为：[N,T,C]，N：非空体素的个数，T：体素中采样点的个数，C：点云和图像特征拼接后的维度，C为7+16。

一些实施例中，步骤260中所述使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图，包括：

对所述拼接矩阵使用同一个FCN层进行升维；

图7是VFE结构图。如图7所示，上述实施中可首先使用全连接层(FCN)按照向量维度对每个拼接后的点云向量做编码，得到逐点向量特征(point-wise feature)，然后按元素的维度在每个逐点向量特征间做最大池化得到局部聚集特征(locally aggregatedfeature)，最后将局部聚集特征向量逐条拼接到逐点向量特征上就得到每个VFE结构对输入的特征表示。其中全连接层FCN对于每个输入的Point-wise向量共享权重，全连接层包含Batch Normal和relu。

图8是两层的VFE结构图，如图8所示，本实施例进一步地可使用了两层VEF结构实现对网络输入的表示，然后使用最大池化对本体素中所有的表示向量在元素的维度做池化，最终得到一个向量用来表示体素。本实施例使用的具体尺寸如下：

VFE-1输出输出尺寸：(7+16，32)

VFE-2输出输出尺寸：(32，128)

最大池化:按照元素做池化(pooling)，输出的特征维度为[N,1,128]，相当于将每个voxel表示成(1,128)的向量。

一些实施例中，步骤270中所述将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果，包括：

上述步骤中将提取出来的第二特征图输入到3D RPN结构进行最终的预测，所述3DRPN包括3D Convolutional Middle Layers和RPN。

在使用两层VEF结构得到整个点云的特征表示后，先将每个非空的体素重映射到原来的3D空间，考虑上体素编码后的特征向量，最终将编码后的特征组成一个稀疏的4D张量，如：[N,1,128]->[128,D’,H’,W’]，然后使用多层3D卷积对此4D的特征表示进一步抽象特征，最后保持H’和W’维度的大小将4D特征转换为3D特征，转换后的特征可以理解为在大地平面上的表示，并认为物体在3D空降上没有高度维度上的堆叠。

根据上述实施例的描述，以步骤260实施例中的输入尺寸为例，整个网络处理特征的尺寸变化流程如下：

完成特征提取工作后，将提取出来的第二特征图输入到3D RPN结构进行最终的预测，3D RPN检测器先使用3组2D卷积对输入的特征图进行3次特征图的下采样，依次将输入特征图下采样到输入尺寸的1/2、1/4、1/8，然后使用转置卷积分别将三个下采样的特征图按深度维度进行2倍的扩充，并将1/4、1/8下采样的特征图上采样到原出入尺寸的1/2倍，最后将三部分的特征图进行拼接用于最终的预测。预测部分使用两个检测头，分别输出置信度和3D回归框，每个卷积头分别使用不同尺寸的2D卷积头构成。

最终输出的格式为：

(1)置信度尺寸：[W,D,anchors]

(2)3D回归框尺寸：[W,D,7*anchors]，7维度分别为(x,y,z,l,w,h,Θ)，表示中心点、长宽高、航向角。

其中，anchors表示在3D检测网络最后的特征层上，每个特征点预设的锚框(anchor)个数，anchor的长宽高直接根据真实世界中目标物类型的大小预设。

图9是本申请实施例的装置结构框图。

如图9所示，一种用于路侧系统的3D目标检测装置，包括：

映射关系获取模块710，用于通过联合标定获取固定视野内固定机位的相机图像和激光雷达点云的映射关系，所述映射关系为所述相机图像的像素坐标系和所述激光雷达点云的雷达坐标系的映射关系；

第一特征图生成模块720，用于通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图；

体素化处理模块730，对所述激光雷达点云进行体素化处理形成多个体素；

投影模块740，用于根据所述映射关系，将所述激光雷达点云投影到所述相机图像上，使所述激光雷达点云中的多个体素与所述第一特征图中的多个位置形成一一对应关系；

拼接矩阵生成模块750，用于将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵；

第二特征图生成模块760，用于使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图；

3D目标检测模块770，用于将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果。

图10是图9实施例中模块720的子模块框图。

一些实施例中，其中所述第一特征图生成模块，包括：

预训练子模块721，用于使用COCO数据集对所述2D目标检测网络进行预训练；

微调子模块722，用于使用确定路侧交通场景对应的目标检测数据集对经预训练的所述2D目标检测网络进行微调；

特征提取子模块723，用于通过微调后的所述2D目标检测网络对所述相机图像进行特征提取。

本申请实施例还提供了一种电子设备，包括至少一个处理器及存储器，存储器存储有程序，并且被配置成至少一个处理器执行以下步骤：

对所述激光雷达点云进行体素化处理形成多个体素；

上述实施例阐明装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能模块分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于路侧系统的3D目标检测方法，包括：

对所述激光雷达点云进行体素化处理形成多个体素；

2.根据权利要求1所述的3D目标检测方法，其中所述通过2D目标检测网络对所述相机图像进行特征提取生成第一特征图，包括：

使用COCO数据集对所述2D目标检测网络进行预训练；

3.根据权利要求1或2所述的3D目标检测方法，其中所述2D目标检测网络采用的是Faster-RCNN结构，所述第一特征图是对所述Faster-RCNN结构中的feature map层的提取结果。

4.根据权利要求1所述的3D目标检测方法，其中所述对所述激光雷达点云进行体素化处理形成多个体素，包括：

5.根据权利要求1所述的3D目标检测方法，其中所述将所述体素的特征向量与所述第一特征图中相应位置的特征向量拼接后生成拼接矩阵，包括：

6.根据权利要求5所述的目标检测方法，其中所述使用多层VFE对所述拼接矩阵中的表示向量进行特征提取生成第二特征图，包括：

对所述拼接矩阵使用同一个FCN层进行升维；

7.根据权利要求1所述的目标检测方法，其中所述将所述第二特征图输入3D目标检测网络进行检测，并通过所述3D目标检测网络输出3D检测结果，包括：

8.一种用于路侧系统的3D目标检测装置，包括：

9.根据权利要求8所述的3D目标检测装置，其中所述第一特征图生成模块，包括：

10.一种电子设备，包括至少一个处理器及存储器，存储器存储有程序，并且被配置成至少一个处理器执行以下步骤：

对所述激光雷达点云进行体素化处理形成多个体素；