CN114494248B

CN114494248B - 基于点云和不同视角下的图像的三维目标检测系统及方法

Info

Publication number: CN114494248B
Application number: CN202210337234.XA
Authority: CN
Inventors: 马也驰; 华炜; 韩正勇; 李金鑫; 冯权; 张顺
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-08-05
Anticipated expiration: 2042-04-01
Also published as: CN114494248A

Abstract

本发明公开了一种基于点云和不同视角下的图像的三维目标检测系统及方法。首先处理原始点云数据，输出候选目标的三维包围盒以及点云特征张量；然后根据不同视角下多帧相机采集到的图像数据、每张图像的采集时间戳、点云采集设备和不同相机之间的标定参数、候选目标的三维包围盒，得到候选目标的图像特征张量；再将候选目标的点云特征张量和图像特征张量进行特征融合，得到融合后的特征张量；最后结合候选目标的融合后的特征张量和三维包围盒，得到目标的三维检测信息。本发明解决了多传感器融合产生的时间配准以及点云运动补偿等产生误差的问题，提高了三维目标检测的精度。

Description

基于点云和不同视角下的图像的三维目标检测系统及方法

技术领域

本发明属于目标检测技术领域，尤其涉及一种基于点云和不同视角下的图像的三维目标检测系统及方法。

背景技术

目标检测技术，尤其是三维目标检测技术，是自动驾驶环境感知中最重要的任务之一。由于点云在三维尺寸信息的优势，现阶段效果较佳的三维目标检测技术都是基于点云进行三维目标检测，包括论文《Sparsely Embedded Convolutional Detection》、《3DObject Proposal Generation and Detection from Point Cloud》等。但点云特征在类别分辨上劣势明显，只能通过神经网络，对目标大致轮廓以及某些点的反射强度的学习，进行分辨判断。

图像在二维目标检测领域技术成熟，类别特征的分辨也优势明显，但尺寸信息的缺失是基于图像的三维目标检测最大的瓶颈。无论是基于前视图直接进行三维目标检测的方法，例如论文《Single-Stage Monocular 3D Object Detection via KeypointEstimation》等；还是基于深度估计或者视差估计得到虚拟点云的三维目标检测的方法，例如论文《Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3DObject Detection for Autonomous Driving》以及发明专利《基于有监督单目深度估计的虚拟点云三维目标检测方法》等；对目标的三维尺寸信息的估计，也很难和基于点云的三维尺寸信息估计相媲美。

因此，基于点云和图像的融合三维检测方案呼之欲出，现阶段的融合方案主要基于点云和图像在前端的数据融合、特征层的融合以及后端融合。前端融合对数据对齐的敏感性很强，例如论文《Sequential Fusion for 3D Object Detection》等。后端融合例如专利《一种基于点云和图像数据的三维目标检测系统和方法》等；将基于点云三维目标检测的结果和基于图像二维目标检测的结果后端融合，这种算法具有易部署、效率高等优点；但若基于点云的三维目标检测发生漏检，后端融合也无法将其找回。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于点云和不同视角下的图像的三维目标检测系统及方法。

本发明的目的是通过以下技术方案来实现的：一种基于点云和不同视角下的图像的三维目标检测系统，包含点云处理模块、图像处理模块、特征融合模块、后处理模块；其中：

所述点云处理模块的输入为未经过运动补偿原始点云数据，包含三维坐标和时间戳；输出为候选目标的三维包围盒以及点云目标特征张量；所述点云处理模块将输入的点云数据体素化，先经过特征提取得到点云特征张量，并采用3D检测头，得到候选目标的三维包围盒；根据三维包围盒框选点云特征张量得到候选目标的点云目标特征张量；

所述图像处理模块的输入为不同视角下多帧相机采集到的图像数据、每张图像数据的采集时间戳、点云采集设备和不同相机之间的标定参数、点云处理模块输出的候选目标的三维包围盒；输出为候选目标的图像目标特征张量；所述图像处理模块基于图像数据及其时间戳进行特征提取，并结合三维包围盒，得到候选目标的图像目标特征张量；

所述特征融合模块的输入为点云处理模块输出的候选目标的点云目标特征张量和图像处理模块输出的候选目标的图像目标特征张量；输出为候选目标的融合特征张量；所述特征融合模块将输入的点云目标特征张量重塑成点云特征序列，将输入的图像目标特征张量重塑成第一图像特征序列，先合并不同设备下不同帧的同一候选目标的第一图像特征序列，输入卷积神经网络得到第二图像特征序列；对第二图像特征序列和其对应的候选目标的点云特征序列，进行特征融合得到融合特征序列；再重塑成融合特征张量；

所述后处理模块的输入为特征融合模块输出的融合特征张量和点云处理模块输出的候选目标的三维包围盒；输出为目标的三维检测信息；所述后处理模块将融合特征张量输入卷积神经网络得到候选目标的类别及置信度。

进一步地，所述对第二图像特征序列和其对应的候选目标的点云特征序列，进行特征融合得到融合特征序列，采用基于传感器的注意力机制模块实现；所述基于传感器的注意力机制模块将第二图像特征序列和其对应的候选目标的点云特征序列作为Attention机制的输入，并将输出与输入中的点云特征序列拼接后，再输入卷积神经网络进行融合，得到融合特征序列。

进一步地，所述后处理模块中，设置置信度阈值，剔除置信度不大于阈值的候选目标。

进一步地，所述点云处理模块中：针对目标中心点的检测采用Focal_loss损失函数；针对目标中心点的偏移量的回归采用L1_Loss损失函数；针对目标中心点的运动方向的检测回归其正弦值与余弦值，并采用L1_loss损失函数；针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数；不同检测分支的损失分配不同的权重；所述后处理模块中，目标类别的判断采用交叉熵损失函数。

进一步地，所述点云处理模块，包括：

(a1)输入为未经过运动补偿的原始点云数据，其中原始点云数据的每个点的特征包含该点在第一坐标系上的三维坐标以及采集时间戳，原始点云数据中点云的最小采集时刻、最大采集时刻分别为第一时刻、第二时刻，第一坐标系为以点云采集设备为坐标原点的笛卡尔正交坐标系；

(a2)将原始点云数据进行体素化，得到体素化特征，所述体素化特征的大小为C_V*H_V*W_V*D_V，其中C_V、H_V、W_V、D_V分别为预设的体素化特征的通道数、体长、宽和高；

(a3)对体素化特征通过3D_Conv进行特征提取，得到点云特征张量，所述点云特征张量的大小为C_P*H_P*W_P*D_P，其中C_P、H_P、W_P、D_P分别为预设的点云特征张量的通道数、长、宽和高；

(a4)采用3D检测头，通过点云特征张量提取出候选目标的三维包围盒；

(a5)通过三维包围盒，框选出候选目标在点云特征张量下的点云目标特征张量，并通过插值使得每个目标的点云目标特征张量的大小为C_P_T*H_P_T*W_P_T，获得插值后的点云目标特征张量，其中C_P_T、H_P_T、W_P_T分别为预设的点云目标特征张量的通道数和长宽；

(a6)每个目标的三维包围盒和该目标的点云目标特征张量为点云处理模块的输出。

进一步地，所述图像处理模块，包括：

(b1)输入为不同视角下，采集时间在第一时刻到第二时刻的图像数据、点云采集设备和不同相机之间的标定参数以及三维包围盒以及每张图像数据的采集时间戳；

(b2)对每张图像数据的每个像素的特征加上对应时间戳，并进行特征提取，得到图像特征张量，每个图像特征张量的大小为C_I*H_I*W_I，其中C_I、H_I、W_I分别为预设的图像特征张量的通道数和长宽；

(b3)通过点云采集设备和不同相机之间的标定参数将三维包围盒投影到图像特征张量的图像坐标系中，框选出候选目标的图像目标特征张量，并通过插值使得图像目标特征张量的大小为C_I_T*H_I_T*W_I_T，其中C_I_T、H_I_T、W_I_T分别为预设的图像目标特征张量的通道数和长宽；

(b4)图像目标特征张量为图像处理模块的输出。

进一步地，所述特征融合模块，包括：

(c1)输入为所述点云处理模块输出的点云目标特征张量和所述图像处理模块输出的图像目标特征张量；

(c2)分别将候选目标的点云目标特征张量重塑成大小为C_P_T*(H_P_T*W_P_T*D_P_T)的点云特征序列；

(c3)分别将不同图像中不同目标的图像目标特征张量重塑成大小为C_I_T*(H_I_T*W_I_T)的第一图像特征序列；

(c4)将第一图像特征序列在不同设备下不同帧的同一候选目标的序列进行合并，并接卷积神经网络Conv2，得到第二图像特征序列，第二图像特征序列的大小为C_P_T*(H_I_T*W_I_T*M*N)，其中若不存在的目标的特征用大小为C_P_T*(H_I_T*W_I_T)的全零张量代替；

(c5)对点云特征序列和第二图像特征序列进行特征融合，得到不同候选目标的融合特征序列，再重塑成大小为(C_P_T*H_P_T)*W_P_T*D_P_T的融合特征张量；

(c6)融合特征张量为特征融合模块的输出。

进一步地，所述对点云特征序列和第二图像特征序列进行特征融合，由基于传感器的注意力机制模块实现，包括：分别将输入的点云特征序列通过可训练权重矩阵W_Que转化为查询矩阵，将输入的第二图像特征序列通过可训练权重矩阵W_Key和W_Val转化为键矩阵和值矩阵，并将键矩阵通过矩阵转置函数进行维度转换，然后左乘查询矩阵除以查询矩阵与键矩阵的归一化距离，再对得到的矩阵按列进行归一化后，乘以值矩阵得到Attention机制的输出；最后将点云特征序列和Attention机制的输出，进行拼接，再通过卷积神经网络模块Conv1进行特征融合，得到融合特征序列。

一种基于点云和不同视角下的图像的三维目标检测方法，包括以下步骤：

（1）点云处理：输入未经过运动补偿的原始点云数据；将每帧点云进行体素化，得到体素化特征；对体素化特征，通过3D_Conv进行特征提取，得到点云特征张量；采用3D检测头，通过点云特征张量提取出三维包围盒，得到插值后的点云目标特征张量；

（2）图像处理：输入不同视角下采集时刻在第一时刻到第二时刻的图像数据、点云采集设备和不同相机之间的标定参数以及三维包围盒；对每张图像数据的每个像素，加上对应时间戳；并进行特征提取得到图像特征张量；通过标定参数，将三维包围盒投影到图像特征张量的图像坐标系中，得到插值后的图像目标特征张量；

（3）特征融合：输入点云目标特征张量和图像目标特征张量；将候选目标的点云目标特征张量，重塑成点云特征序列；将不同图像中不同目标的图像目标特征张量，重塑成第一图像特征序列；将第一图像特征序列在不同设备下不同帧的同一候选目标的序列，进行合并，并接卷积神经网络Conv2，得到第二图像特征序列；对点云特征序列和第二图像特征序列，通过Attention机制结合卷积神经网络Conv1进行特征融合，再重塑得到不同候选目标的融合特征张量；

（4）后处理：输入不同候选目标的融合特征张量和三维包围盒；使用卷积神经网络Conv3，对融合特征张量进行特征提取并分类，输出不同目标类别以及置信度；设置置信度阈值，再结合三维包围盒，得到不同目标的检测信息。

一种可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述基于点云和不同视角下的图像的三维目标检测方法。

本发明的有益效果是：本发明采用点云和图像特征层融合的方法，使用Tansformer算法融合了单帧点云和多帧不同视角下的图像数据，解决了多传感器融合产生的时间配准以及点云运动补偿等产生误差的问题，提高了三维目标检测的精度，可应用在车路协同系统中。

附图说明

图1为本发明基于点云和不同视角下的图像的三维目标检测系统的示意图；

图2为本发明通过稀疏3D_Conv进行特征提取的示意图；

图3为本发明3D检测头的示意图。

具体实施方式

以下结合附图对本发明进行详细说明。应当理解的是，此处所描述的实施例仅用于说明和解释本发明，并不用于限制本发明。

本发明实施例采用园区内自采集数据；其中，数据集包含1万对激光点云（包含每帧点云每个点的时间戳信息）和图像数据（包括每张图像的时间戳信息）、点云采集设备激光雷达的位姿、图像采集设备相机的内外参、目标的三维信息标签以及二维信息标签。其中，三维信息标签包含目标在激光雷达坐标系的三维坐标x、y、z，长宽高l、w、h，方向yaw，和目标类别信息cls；二维信息标签包括目标在图像坐标系下的二维框左上(x1, y1)、右下顶点坐标(x2, y2)，和类别信息cls。三维和二维信息对应的类别相同，类别包括轿车、卡车、行人、骑车的人、交通锥。其中，训练集数据有8000对，验证集数据有2000对。其中，相机设备包含6个车端相机以及2个路端相机。其中，激光点云的采样频率是10HZ，相机的采样频率是30HZ，因此每帧点云数据对应8个不同视角下，每个视角最多3帧的图像数据。

如图1所示，本发明一种基于点云和不同视角下的图像的三维目标检测系统，包括点云处理模块、图像处理模块、基于传感器的注意力机制（Sensors_Attention）模块、特征融合模块和后处理模块。

（1）点云处理模块。

（1.1）输入为10000帧未经过运动补偿的原始点云数据Pointcloud。其中，Pointcloud的每个点的特征，包含该点在激光雷达坐标系上的三维坐标以及该点的采集时间戳；Pointcloud中点云的最小以及最大采集时间分别为第一时刻Pointcloud_t_min以及第二时刻Pointcloud_t_max；激光雷达坐标系为以激光雷达为坐标原点的笛卡尔正交坐标系，向前方向为X轴正方向，向右方向为Y轴正方向，向上方向为Z轴正方向。

（1.2）将每帧点云进行体素化，点云体素化后的特征为Pointcloud_Voxel。其中，体素化的点云特征在X、Y、Z轴的取值范围分别是[0米, 70.4米]、[-40米, 40米]、[-3米, 1米]；每个体素的大小为[0.05米, 0.05米, 0.1米]；每个体素化特征为体素内所有点的特征的均值。体素化后的特征大小为C_V*D_V*W_V*H_V，C_V表示特征通道数，D_V表示高度，W_V表示宽度，H_V表示长度；本实施例中的大小为4*40*1600*1408。

（1.3）如图2所示，对体素化特征Pointcloud_Voxel通过稀疏3D_Conv进行特征提取，得到点云特征张量Pointcloud_F，形状大小为64*2*200*176。其中，稀疏3D_Conv的网络结构，依次包括一组卷积模块，每个卷积模块由子流形卷积层SubMConv3d、归一化层Norm和Relu层依次组成。具体网络参数如表1所示。

表1：稀疏3D_Conv的网络结构

（1.4）将Pointcloud_F转换成鸟瞰图特征Pointcloud_F_Bird，形状大小为128*200*176。

（1.5）如图3所示，构造3D检测头，3D检测头是基于CenterNet（Anchor Free的一种）检测头的改进版，由5个2D卷积层组成。将鸟瞰图特征Pointcloud_F_Bird输入3D检测头，输出目标的三维候选框Proposals，包括目标的中心点坐标（center_u,center_v）（热图）、目标中心点偏移量（center_u_offset,center_v_offset）、目标航向角yaw的正余弦值sin_yaw,cos_yaw、目标中心点在激光雷达坐标系下的Z轴坐标center_z、目标的长宽高l,w,h。其中，目标航向角yaw为目标朝向与激光雷达坐标系的X轴的夹角。具体网络参数如表2所示。

表2：3D检测头的网络结构

因此，本实施例通过3D检测头，可提取出200*176个三维候选框{Proposals[i]|i为目标索引，0≤i<200*176}。

其中，针对目标中心点的检测采用Focal_loss损失函数；针对目标中心点的偏移量的回归采用L1_Loss损失函数；针对目标中心点的运动方向的检测回归其正弦值与余弦值，并采用L1_loss损失函数；针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。不同检测分支的损失分配不同的权重。

（1.6）通过三维包围盒Proposals[i]，框选出候选目标i在Pointcloud_F下的点云目标特征张量；并通过ROI Align插值方法，使得候选目标i的特征张量的大小为64*2*50*44，插值后的点云目标特征张量为{Pointcloud_F_Proposals[i] |i为目标索引，0≤i<200*176}。

（2）图像处理模块。

（2.1）输入为不同视角下，采集时间在Pointcloud_t_min到Pointcloud_t_max的图像数据{Image[m][n] |m为不同采集设备的索引，n为不同帧的索引，0≤m<8，0≤n<3}、激光雷达和不同相机之间的标定参数{Calibration[m] |m为不同采集设备的索引，0≤m<8}以及三维包围盒Proposals[i]。

（2.2）对每张图像数据Image[m][n]的每个像素，加上对应时间戳；并采用ResNet50进行特征提取，得到图像特征张量{Image_F[m][n] |0≤m<8，0≤n<3}，每个图像特征张量的形状大小为128*304*152。

（2.3）通过标定参数Calibration[m]，将三维包围盒Proposals[i]，投影到Image_F[m][n]的图像坐标系中，框选出候选目标i的图像目标特征张量；并通过ROI Align插值方法，使得图像目标特征张量的大小为128*76*38，插值后的图像目标特征张量为{Image_F_Proposals[m][n][i] |m为不同采集设备的索引，n为不同帧的索引，i为目标索引，0≤m<8，0≤n<3，0≤i<200*176}。

（3）基于传感器的注意力机制（Sensors_Attention）模块，由Attention、Concat和Conv1模块依次组成，对输入的两个特征张量进行特征融合。本系统中，Sensors_Attention模块的输入来自特征融合模块。

（3.1）输入为两个特征张量，X_a和X_b。Y(X_a, X_b)为Attention模块的输出。

Q_a=X_a*W_Que

K_b=X_b*W_Key

V_b=X_b*W_Val

其中，W_Que、W_Key、W_Val均为可训练权重矩阵；查询矩阵Q_a作为Attention机制中的Query，键矩阵K_b作为Key，值矩阵V_b作为Value；d为Q_a与K_b的归一化距离（维度）；Trans( )为矩阵转置函数；softmax_col( )为矩阵按列进行归一化softmax操作。本实施例Attention模块采用Tansformer算法。

（3.2）将X_a和Y(X_a, X_b)进行拼接Concat，再通过1*1卷积神经网络Conv融合，得到特征张量Sensors_Attention（X_a, X_b）：

Sensors_Attention(X_a, X_b)=Conv1(X_a, Y(X_a, X_b))

其中，Conv1( )为卷积神经网络函数；本实施例Sensors_Attention（X_a, X_b）的形状大小为64*(2*50*44)。

（4）特征融合模块。

（4.1）输入为候选目标的点云目标特征张量Pointcloud_F_Proposals[i]和图像目标特征张量Image_F_Proposals[m][n][i]。

分别将候选目标i的特征张量Pointcloud_F_Proposals[i]，重塑成形状大小为64*(4400)的点云特征序列{Pointcloud_F_Proposals_Seq[i] |i为目标索引，0≤i<200*176}。

分别将不同图像中不同目标i的Image_F_Proposals[m][n][i]，重塑成形状大小为128*(2888)的第一图像特征序列{Image_F_Proposals_Seq[m][n][i] |m为不同采集设备的索引，n为不同帧的索引，i为目标索引，0≤m<8，0≤n<3，0≤i<200*176}。

（4.2）将Image_F_Proposals_Seq[m][n][i]不同设备m下，不同帧的同一候选目标i的序列进行合并，并输入卷积神经网络Conv2，得到第二图像特征序列{Image_F_Proposals_Seq_M[i] |i为目标索引，0≤i<200*176}，形状大小为128*(76*38*8*3)。其中，卷积神经网络Conv2由1个卷积层和1个Relu激活层依次组成；卷积层卷积核大小为1*1。特殊地，若“不存在”的目标的特征用形状大小为128*(76*38)的全零张量代替，其中“不存在”指的是Pointcloud_F_Proposals[i]的三维候选框没有成功投影到图像中。

（4.3）调用Sensors_Attention模块，对Pointcloud_F_Proposals_seq[i]和Image_F_Proposals_Seq_M[i]，进行特征融合，得到不同候选目标i的融合特征序列{Fusion_q[i] |i为目标索引，0≤i<200*176}；再重塑成形状大小为(64*2)*50*44的融合特征张量{Fusion[i] |i为目标索引，0≤i<200*176}；其中，Sensors_Attention模块中的X_a为Pointcloud_F_Proposals_seq[i]。

（5）构造后处理模块。

输入为不同目标i的融合特征张量Fusion[i]和三维包围盒Proposals[i]。

使用卷积神经网络Conv3，对Fusion[i]进行特征提取并分类，输出不同目标类别以及置信度。设置置信度阈值0.3，再结合Proposals[i]，得到不同目标i的检测信息{Predictions[i] |i为目标索引，0≤i<I}，I为检测置信度大于0.3的目标个数。其中，检测信息包含不同目标在激光雷达坐标系的三维坐标x、y、z，长宽高l、w、h，方向yaw，目标类别信息cls以及类别信息的置信度。

其中，目标类别的判断采用交叉熵损失函数，进行训练。

本发明一种基于点云和不同视角下的图像的三维目标检测方法，包括以下步骤：

（1）点云处理：输入未经过运动补偿的原始点云数据Pointcloud。将每帧点云进行体素化得到特征Pointcloud_Voxel。对体素化特征Pointcloud_Voxel通过稀疏3D_Conv进行特征提取，得到点云特征张量Pointcloud_F。将Pointcloud_F转换成鸟瞰图特征Pointcloud_F_Bird。将鸟瞰图特征Pointcloud_F_Bird输入3D检测头，提取出三维候选框Proposals[i]。通过三维包围盒Proposals[i]，结合ROI Align插值方法，得到插值后的点云目标特征张量为Pointcloud_F_Proposals[i]。

（2）图像处理：输入不同视角下采集时间在Pointcloud_t_min到Pointcloud_t_max的图像数据Image[m][n]、激光雷达和不同相机之间的标定参数Calibration[m]以及三维包围盒Proposals[i]。对每张图像数据Image[m][n]的每个像素，加上对应时间戳；并采用ResNet50进行特征提取，得到图像特征张量Image_F[m][n]。通过标定参数Calibration[m]，将三维包围盒Proposals[i]，投影到Image_F[m][n]的图像坐标系中，并结合ROIAlign插值方法，得到插值后的图像目标特征张量Image_F_Proposals[m][n][i]。

（3）特征融合：输入Pointcloud_F_Proposals[i]和Image_F_Proposals[m][n][i]。将候选目标i的点云目标特征张量Pointcloud_F_Proposals[i]，重塑成点云特征序列Pointcloud_F_Proposals_Seq[i]。将不同图像中不同目标i的Image_F_Proposals[m][n][i]，重塑成第一图像特征序列Image_F_Proposals_Seq[m][n][i]。将Image_F_Proposals_Seq[m][n][i]不同设备m下，不同帧的同一候选目标i的序列，进行合并，并接卷积神经网络Conv2，得到第二图像特征序列Image_F_Proposals_Seq_M[i]。对Pointcloud_F_Proposals_seq[i]和Image_F_Proposals_Seq_M[i]，依次通过Attention、Concat和Conv1进行特征融合，再重塑得到不同候选目标i的融合特征张量Fusion[i]。

（4）后处理：输入不同目标i的融合特征张量Fusion[i]和三维包围盒Proposals[i]。

使用卷积神经网络Conv3，对Fusion[i]进行特征提取并分类，输出不同目标类别以及置信度。设置置信度阈值，再结合Proposals[i]，得到不同目标i的检测信息Predictions[i]。

本实施例选用8000对训练集数据进行训练，2000对验证集数据进行推理测试。

为验证本发明的优势，分别使用相同训练集在现阶段较为常用的基于点云的三维目标检测方案PointPillars、PointRCNN、Second进行训练，并在验证集中验证精度。各自在验证集的各类别指标的3D map比较如表3所示，表中数值为正确率；可以看出，本发明相对于现有技术，在三维目标检测精度上有较大的提升。

表3：不同方案的检测结果对比（%）

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于点云和不同视角下的图像的三维目标检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于点云和不同视角下的图像的三维目标检测系统，其特征在于，包含点云处理模块、图像处理模块、特征融合模块、后处理模块；其中：

所述特征融合模块的输入为点云处理模块输出的候选目标的点云目标特征张量和图像处理模块输出的候选目标的图像目标特征张量；输出为候选目标的融合特征张量；所述特征融合模块将输入的点云目标特征张量重塑成点云特征序列，将输入的图像目标特征张量重塑成第一图像特征序列，先合并不同设备下不同帧的同一候选目标的特征序列，输入卷积神经网络得到第二图像特征序列；对第二图像特征序列和其对应的候选目标的点云特征序列，进行特征融合得到融合特征序列；再重塑成融合特征张量；

2.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述对第二图像特征序列和其对应的候选目标的点云特征序列，进行特征融合得到融合特征序列，采用基于传感器的注意力机制模块实现；所述基于传感器的注意力机制模块将第二图像特征序列和其对应的候选目标的点云特征序列作为Attention机制的输入，并将输出与输入中的点云特征序列拼接后，再输入卷积神经网络进行融合，得到融合特征序列。

3.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述后处理模块中，设置置信度阈值，剔除置信度不大于阈值的候选目标。

4.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述点云处理模块中：针对目标中心点的检测采用Focal_loss损失函数；针对目标中心点的偏移量的回归采用L1_Loss损失函数；针对目标中心点的运动方向的检测回归其正弦值与余弦值，并采用L1_loss损失函数；针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数；不同检测分支的损失分配不同的权重；所述后处理模块中，目标类别的判断采用交叉熵损失函数。

5.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述点云处理模块，包括：

6.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述图像处理模块，包括：

(b4)图像目标特征张量为图像处理模块的输出。

7.如权利要求1所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述特征融合模块，包括：

(c2)分别将候选目标的点云目标特征张量重塑成大小为C_P_T*(H_P_T*W_P_T*D_P_T)的点云特征序列；其中C_P_T、H_P_T、W_P_T分别为预设的点云目标特征张量的通道数和长宽；

(c3)分别将不同图像中不同目标的图像目标特征张量重塑成大小为C_I_T*(H_I_T*W_I_T)的第一图像特征序列；其中C_I_T、H_I_T、W_I_T分别为预设的图像目标特征张量的通道数和长宽；

(c4)将第一图像特征序列在不同设备下不同帧的同一候选目标的序列进行合并，并接卷积神经网络Conv2，得到第二图像特征序列，第二图像特征序列的大小为C_P_T*(H_I_T*W_I_T*M*N)，其中若不存在的目标的特征用大小为C_P_T*(H_I_T*W_I_T)的全零张量代替；其中，卷积神经网络Conv2由1个卷积层和1个Relu激活层依次组成；卷积层卷积核大小为1*1；

(c6)融合特征张量为特征融合模块的输出。

8.如权利要求7所述基于点云和不同视角下的图像的三维目标检测系统，其特征在于，所述对点云特征序列和第二图像特征序列进行特征融合，由基于传感器的注意力机制模块实现，包括：分别将输入的点云特征序列通过可训练权重矩阵W_Que转化为查询矩阵，将输入的第二图像特征序列通过可训练权重矩阵W_Key和W_Val转化为键矩阵和值矩阵，并将键矩阵通过矩阵转置函数进行维度转换，然后左乘查询矩阵除以查询矩阵与键矩阵的归一化距离，再对得到的矩阵按列进行归一化后，乘以值矩阵得到Attention机制的输出；最后将点云特征序列和Attention机制的输出，进行拼接，再通过卷积神经网络模块Conv1进行特征融合，得到融合特征序列；其中，卷积神经网络模块Conv1为1*1卷积神经网络。

9.一种基于点云和不同视角下的图像的三维目标检测方法，其特征在于，包括以下步骤：

10.一种可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求9所述基于点云和不同视角下的图像的三维目标检测方法。