CN112347987A

CN112347987A - 一种多模数据融合的三维目标检测方法

Info

Publication number: CN112347987A
Application number: CN202011372898.7A
Authority: CN
Inventors: 葛洪伟; 李阳; 江明
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-09

Abstract

本发明公开了一种多模数据融合的三维目标检测方法，充分利用了图片信息，主要解决了点云稀疏性和远小物体难以检测的问题。首先，该方法采用体素特征提取，对体素内点进行编码，获取体素级别特征。其次，进行图片多层语义特征提取和点云着色，底层语义特征提供精确位置信息，高层语义特征提供语义信息，点云与图片信息融合。然后，进行体素特征增强，体素邻域点云特征弥补体素离散过程中点云信息丢失的缺陷。最后，引入了双注意力机制，通道注意力机制和体素注意力机制增强了有用特征信息，抑制了无用特征信息。本发明方法能解决点云稀疏性和远小物体难以检测的问题，能增强有用特征信息，抑制无用特征信息，提高了目标检测性能。

Description

一种多模数据融合的三维目标检测方法

技术领域

本发明涉及一种多模数据融合的三维目标检测方法，属于模式识别和智能信息处理领域。

背景技术

三维目标检测作为视觉感知系统中重要的一步，在自动驾驶、机器人、虚拟现实和增强现实等领域得到了广泛的应用。激光雷达传感器由于其直接获取空间目标的三维结构信息和精确的深度信息的特点，被广泛利用在自动驾驶和机器人领域来捕获三维场景信息。然而，由于激光雷达点云数据的稀疏性和不均匀性的缺点，导致其在精确物体检测和远小物体检测上表现不佳。

大部分的三维检测方法根据三维点云的表示方法不同，可分为基于体素的方法、基于多视角的方法和基于点云的方法。对于体素方法，点云被转换为间隔规则的三维体素网格，其中每个体素单元包含点云坐标等特征。三维卷积网络用于从体素网格中提取体素的高阶表示。VoxelNet(Zhou Y,Tuzel O.Voxelnet:End-to-end learning for pointcloud based 3d object detection[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018:4490-4499.)提出了端到端的深度学习框架，利用特征提取器VFE层学习体素特征，由于点云本质上是稀疏且不均匀的，稀疏的体素网格带来了大量冗余的计算。同时，VoxelNet在体素化过程中，规定了每个体素内最大点的数量，从而导致在体素内点的数量超过限制时点特征信息的丢失。Second(Yan Y,MaoY,Li B.Second:Sparsely embedded convolutional detection[J].Sensors,2018,18(10):3337.)提出了稀疏卷积以替代VoxelNet中的3D卷积提取特征，有效的减少计算量，提升了推理性能。对于多视角方法，Pixor(Yang B,Luo W,Urtasun R.Pixor:Real-time 3dobject detection from point clouds[C].Proceedings of the IEEE conference onComputer Vision and Pattern Recognition,2018:7652-7660.)将点云投影到鸟瞰图，以得到类似图片的密集的紧凑的表示形式，二维卷积网络进而提取点云特征。但在投影离散过程中会带来信息损失，导致远物体检测困难。对于点云方法，直接从原始点云数据提取特征，不会带来因体素化带来的信息损失。PointNet(Qi C R,Su H,Mo K,et al.Pointnet:Deep learning on point sets for 3d classification and segmentation[C].Proceedings of the IEEE conference on computer vision and patternrecognition,2017:652-660.)是一个端到端的深度神经网络，直接从原始点云中学习到点云的全局特征，该方法在三维目标识别、实例分割和语义分割有很好的效果。PointNet++对PointNet进行了改进，能够学习到点云不同尺度的局部特征，但因为也是基于点云数据，因此也存在因为点云的稀疏性导致的对于远距离物体检测性能较差的问题。因此上述三类方法，检测性能都会因为点云的稀疏性在检测远距离物体时变差。

发明内容

为了解决现有检测方法因为真实场景中点云稀疏性导致远小物体难以检测的问题，本申请提出的一种多模数据融合的三维目标检测方法，所述方法在获取到真实场景的图片和对应的点云数据后，首先使用特征提取器VFE将点云数据的体素特征转为高阶表示；之后，利用预训练的faster RCNN网络提取图片多层语义特征，然后根据投影关系，将点云投影到图片多层语义特征上，通过双线性插值分别获得点云对应的图片多层语义特征；然后，通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息；通道和体素双注意力机制增强有用特征，抑制无用特征；最后体素特征送入卷积网络和区域提议网络实现目标检测。

可选的，以kitti目标检测标记数据集作为真实场景的图片和对应的点云数据，所述方法包括：

(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格，沿着x、y、z方向，点云数据的长、宽和深度范围分别为d、w和h；定义每个体素的长、宽和深度分别为v_d、v_w、v_h，则最后的三维体素网格的长、宽和深度为

(2)构建特征提取器，所述特征提取器VFE由一个全连接网络和一个最大池化操作组成，叠加的特征提取器在体素级别对体素内的每个点进行编码，输出VFE特征；全连接网络由一个线性层、一个批归一化操作和一个ReLU层组成；

(3)训练一个基于resnet的faster RCNN网络；将resnet的层1至层4模块作为图片的多层语义特征提取器，输出图片特征图；

(4)利用点云与图片之间的映射关系，将点云映射到图片特征图，通过插值获取点云对应的图片多层语义特征信息，使用一个全连接网络对图片特征进行转换，之后对每个点的多层语义特征进行连接；

(6)通道注意力发掘不同模态特征的重要程度，通道注意力的输入为图片特征、VFE特征和体素邻域加强特征，通道注意力由两个线性层和一个sigmoid操作组成；

(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度，增强有用特征，抑制无用特征，体素注意力由一个线性层和一个sigmoid操作组成；

(8)经过双注意力机制加强的体素特征送入到一组卷积中间层，输出体素特征

(9)区域提议网络将卷积中间层的输出特征在H维度进行压缩，通过下采样和上采样操作获取特征图，对上采样特征进行连接，输出最后特征图

(10)将最后特征图送入分类器和回归器，分别得到待检测目标的种类和位置、目标大小及方向。

可选的，所述特征提取器由两个叠加的特征提取器VFE1和VFE2组成，所述(2)构建特征提取器，包括：

2.1定义

为一个非空体素，非空体素内包含5个点，其中x_i,y_i,z_i为点P_i的三维坐标，r_i为点P_i反射值，点的特征即为三维坐标与反射值；

2.2计算非空体素V内所有点的坐标均值作为体素V的聚类中心(c_x,c_y,c_z)，同时体素在三维体素网格中的坐标作为体素V的坐标V_center(v_x,v_y,v_z)，然后计体素V内每个点相对聚类中心和体素坐标V_center的坐标偏移，并对点的特征进行连接，从而获取特征提取器VFE输入V_in：

2.2输入特征V_in通过全连接网络进行特征升维转换到特征空间

此时非空体素V内所有点的特征维度升至m维，m＝64；之后通过聚合V_feature特征信息对每个体素所表示的三维物体的表面形状进行编码，即对V_feature进行最大池化获取体素V的局部聚合特征

2.3将2.2获取到的非空体素V的局部聚合特征V_local与V_feature进行连接以对V内所有点进行特征增强；得到特征提取器VFE的输出V_out：

T表示体素内包含点的个数。

可选的，所述将resnet的层1至层4模块作为图片的多层语义特征提取器，输出图片特征图，包括：

输入图片维度，包括图片的宽、高和通道，resnet的层1至层4依次提高图片通道维数到256、512、1024和2048，以2倍比例减少图片尺寸大小，特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数，输出图片的多层语义特征。

可选的，所述利用点云与图片之间的映射关系，将点云映射到图片特征图，通过插值获取点云对应的图片多层语义特征信息，使用一个全连接网络对图片特征进行转换，之后对每个点的多层语义特征进行连接包括：

对于点云中一个点P(x,y,z,r)，点P映射到图片上，获取对应的多层语义特征为

使用一个全连接网络对图片特征进行转换，输出维度128，之后对每个点的多层语义特征进行连接，将连接特征进一步转换，最后输出维度128，则最后点P的图片特征为

对于一个体素，通过将体素内点云着色，T个点对应的图片特征为128维，体素内T个点的图片特征进行聚合操作以获得体素级别特征，此时体素图片特征为(D,W,H,128)；

对于体素V坐标V_center，在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。

可选的，所述对于体素V坐标V_center，在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息，包括：

给定一个点云{P_t＝(x_t,y_t,z_t,r_t)|t＝1,…,N}，其中(x_t,y_t,z_t)为点P_t的世界坐标，r_t为点P_t反射值特征；对于体素坐标

在半径不大于r的邻域内寻找最多K个点，则得到体素坐标

的邻域集合

其中，

为

世界坐标，coord_j为点P_j的世界坐标，坐标偏移量

与点云特征r_j进行连接以表明点云特征的局部相对位置；

对于体素V_i，邻域半径为r，利用PointNet来产生其局部特征

其中，Q为对邻域集合

的随机采样以保持最多K个邻域点，M为一个对点的特征和局部位置进行编码的叠加全卷积网络，max为最大池化操作，以保证所有体素特征维度一致；

叠加全卷积网络由两个全卷积网络组成，每个全卷积网络由一个二维卷积、一个批归一化和一个ReLU操作组成，二维卷积的卷积核大小为1，输出维度为32；

设置两个不同的半径r和j，

和

的特征维度均为32，连接二者特征获得最后加强的体素特征维度为64；

此时所有体素特征经过加强后，其特征为(D,W,H,64)。

可选的，通道注意力中两个线性层为Linear1(256,32)和Linear2(32,256)，Linear1(256,32)代表输入为(D×W×H，256)，输出为(D×W×H，32)，输入为256维，输出为32维，Linear2(32,256)同理。

可选的，体素注意力中线性层输入输出分别为259和1。

可选的，所述区域提议网络将卷积中间层的输出特征在H维度进行压缩，通过下采样和上采样操作获取特征图，对上采样特征进行连接，输出最后特征图

包括：

卷积中间层由5个卷积模块组成，第一个卷积模块为Block1(SubMConv3d(),SubMConv3d())：由两个子流行卷积模块组成，其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成，子流行卷积输入维度256，输出维度16；第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成，其中稀疏卷积模块由一个稀疏卷积、一个批归一化和一个ReLU操作组成；第二到第四个卷积模块输出维度分别为32,64,64；第五个卷积模块由一个稀疏卷积模块组成，稀疏卷积步长为(1,1,2)，输出维度为128；经过卷积中间层的体素特征变为

区域提议网络由两个下采样模块和两个上采样模块组成；每个下采样模块由六个全卷积网络Conv2d组成，除了第二个下采样模块中第一个全卷积网络的步长为2，其余全卷积网络步长均为1，每个下采样模块的后五个全卷积网络输入输出维度一致，两个下采样模块输出维度分别为128和256；每个全卷积网络都包含一个二维卷积、一个批归一化和一个ReLU操作；上采样模块将两个下采样模块的输出升维至256以保持特征图的高分辨率；对两个上采样模块的输出维度进行连接获取最后特征图为

可选的，所述将最后特征图送入分类器和回归器，分别得到待检测目标的种类和位置、目标大小及方向，包括：

分类器为一个二维卷积conv2d(512，18)，输入512维，输出18维，输出为目标的种类；回归器为一个二维卷积conv2d(512，42)，输入512维，输出42维，输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。

本发明有益效果是：

本申请在进行三维目标检测时，首先使用特征提取器VFE将体素特征转为高阶表示；之后，利用预训练的faster RCNN网络提取图片语义特征，然后根据投影关系，将三维点云投影到图片多层语义特征图上，通过双线性插值分别获得点云对应的特征；然后，通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息；同时通过通道和体素双注意力机制增强有用特征，抑制无用特征，从而解决了现有三维目标检测过程中因为点云的稀疏性导致的对于远距离物体检测性能较差的问题，有效提升了对于远小困难物体的检测性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例1的实现流程图。

图2为实施例1的本发明方法中图片特征残差网络的主要结构示意图。

图3为实施例1的本发明方法中点云映射获取图片特征的主要结构示意图。

图4为实施例1的本发明方法中通道注意力的主要结构示意图。

图5为实施例1的本发明方法中体素注意力的主要结构示意图。

图6为实施例1的本发明方法中卷积中间层的主要结构示意图。

图7为实施例1的本发明方法中区域提议网络的主要结构示意图。

图8为实施例1的本发明方法同VoxelNet对比方法的定性分析对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为便于理解本发明技术方案，首先对本发明技术方案设计的基础理论介绍如下：

1.VoxelNet网络

VoxelNet网络的主要组成部分为(1)特征提取器、(2)卷积中间层和(3)区域提议网络。其主要思想是通过特征提取器将每个体素内的点与局部聚合特征进行连接，获取体素内部的点之间的交互关系，进而得到体素级别特征，叠加的特征提取器VFE使得每个体素学习到局部三维信息的复杂特征，然后卷积中间层进一步聚合局部的体素特征，扩大其感受野，将点云转换到高维度量表示，最后区域提议网络利用体素特征产生检测结果。

由于特征提取器的输出特征包含了点级别的特征和体素级别的局部聚合特征，叠加的特征提取器能够进一步对体素内点之间的关系进行编码，使得最后的特征表示能学习到三维物体的表面结构信息。叠加的特征提取器的输出送入一个全连接网络，利用最大池化获取体素级别特征。

2.损失函数

损失函数用来评估模型的预测值与真实值之间的差异程度，也是神经网络中优化的目标函数。神经网络训练或者优化的过程就是最小化损失函数的过程，损失函数越小，说明模型的预测值就越接近真实值，模型的准确性也就越好。模型对样本的预测输出越接近真实样本标签0，损失值L越小；预测越接近1，L越大。

实施例一：

本实施例提供一种多模数据融合的三维目标检测方法，参见图1，所述方法包括：

(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格，沿着x、y、z方向，点云数据长、宽和深度范围分别为d、w和h，定义每个体素的长、宽和深度分别为v_d、v_w、v_h，则最后的三维体素网格的长、宽和深度为

(2)构建特征提取器，定义

为一个非空体素，该体素内包含5个点，其中x_i,y_i,z_i为点P_i的三维坐标，r_i为点P_i反射值，点的特征即为三维坐标与反射值。

首先计算体素V内所有点的坐标均值作为体素V的聚类中心(c_x,c_y,c_z)，同时体素在三维体素网格中的坐标作为体素V的坐标V_center(v_x,v_y,v_z)，然后计体素V内每个点相对聚类中心和体素坐标V_center的坐标偏移，并对点的特征进行连接，从而获取特征提取器VFE输入：

输入特征V_in通过全连接网络进行特征升维转换到特征空间

此时体素V内所有点的特征维度升至m维，m＝64。之后通过聚合V_feature特征信息对每个体素所表示的三维物体的表面形状进行编码，即对V_feature进行最大池化获取体素V的局部聚合特征

最后，将体素V的局部聚合特征V_local与V_feature进行连接以对V内所有点进行特征增强。至此，特征提取器VFE的输出为

本申请采用两个叠加的特征提取器VFE1和VFE2对体素进行特征提取，VFE1的输出作为VFE2的输入。两个叠加的特征提取器为VFE1(10,128)和VFE2(128,64)，即VFE1的输入为(T,10)，输出为(T,128)，T为默认值5，代表体素V内点的数量，输入特征维度为10，输出特征维度为128，VFE2(128,64)同理；

(3)训练一个基于resnet的faster RCNN网络，该网络首先在COCO数据集上训练，然后在kitti数据集上微调。根据图2所示，输入图片维度为宽、高和通道，resnet的层1至层4依次提高图片通道维数到256、512、1024和2048，以2倍比例减少图片尺寸大小，特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数，输出图片的多层语义特征；

(4)根据图3所示，利用点云与图片之间的映射关系，将点云映射到图片特征图，通过插值获取点云对应的图片多层语义特征信息。对于点云中一个点P(x,y,z,r)，点P映射到图片上，获取对应的多层语义特征为

(5)对于体素V坐标V_center，在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。具体步骤为：

给定一个点云{P_t＝(x_t,y_t,z_t,r_t)|t＝1,…,N}，其中(x_t,y_t,z_t)为点P_t的世界坐标，r_t为点P_t反射值特征。对于体素坐标

在半径不大于r的邻域内寻找最多K个点，则得到体素坐标

的邻域集合

其中，

为

世界坐标，coord_j为点P_j的世界坐标，坐标偏移量

与点云特征r_j进行连接以表明点云特征的局部相对位置。

对于体素V_i，邻域半径为r，利用PointNet来产生其局部特征

其中，Q为对邻域集合SV_centeri的随机采样以保持最多K个邻域点，M为一个对点的特征和局部位置进行编码的叠加全卷积网络，max为最大池化操作，以保证所有体素特征维度一致。叠加全卷积网络由两个全卷积网络组成，每个全卷积网络由一个二维卷积(卷积核大小为1，输出维度为32)、一个批归一化和一个ReLU操作组成，即

的特征维度为32。同时利用多尺度的邻域信息，以聚合不同感受野的局部特征，从而获取体素更加丰富的不同尺寸的上下文信息。设置两个不同的半径r和j，

和

的特征维度均为32，连接二者特征获得最后加强的体素特征维度为64。此时所有体素特征经过加强后，其特征为(D,W,H,64)。

(6)通道注意力发掘不同模态特征的重要程度；

根据图4所示，通道注意力输入为图片特征、VFE特征和体素邻域加强特征，其中两个线性层为Linear1(256,32)和Linear2(32,256)，Linear1(256,32)代表输入为(D×W×H，256)，输出为(D×W×H，32)，输入为256维，输出为32维，Linear2(32,256)同理，‘+’为连接操作，‘×’为对应元素相乘；

(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度，增强有用特征，抑制无用特征。在送入体素注意力之前，体素特征与体素三维坐标连接，以提供精确的三维物体的位置信息，此时体素注意力的输入为(D,W,H,259)。根据图5所示，体素注意力由一个线性层和一个sigmoid操作组成，其中线性层输入输出分别为259和1，‘+’为连接操作，‘×’为对应元素相乘；

(8)经过双注意力机制加强的体素特征(D,W,H,256)送入到一组卷积中间层，三维卷积进一步扩大每个体素特征的感受野，同时获得语义信息来提升目标检测性能。

根据图6所示，卷积中间层由5个卷积模块组成，第一个卷积模块为Block1(SubMConv3d(),SubMConv3d())：由两个子流行卷积模块组成，其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成，子流行卷积输入维度256，输出维度16。第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成，其中稀疏卷积模块由一个稀疏卷积(步长均为2)、一个批归一化和一个ReLU操作组成，例如第二个卷积模块组成如下：Block2(SparseConv3d(),SubMConv3d(),SubMConv3d())。第二到第四个卷积模块输出维度分别为32,64,64。第五个卷积模块由一个稀疏卷积模块组成，稀疏卷积步长为(1,1,2)，输出维度为128。每个模块的输出维度用橘色数字表示。无特殊说明情况下，流行卷积模块步长均为1。经过卷积中间层的体素特征变为

(9)区域提议网络将卷积中间层的输出特征在H维度进行压缩，此时体素特征为

并通过下采样和上采样操作获取特征图。根据图7所示，区域提议网络由两个下采样模块和两个上采样模块组成。每个下采样模块由六个全卷积网络Conv2d组成，除了第二个下采样模块中第一个全卷积网络的步长为2，其余全卷积网络步长均为1,每个下采样模块的后五个全卷积网络输入输出维度一致，两个下采样模块输出维度分别为128和256。每个全卷积网络都包含一个二维卷积、一个批归一化和一个ReLU操作。上采样模块将两个下采样模块的输出升维至256以保持特征图的高分辨率。对两个上采样模块的输出维度进行连接获取最后特征图为

(10)特征图送入分类器和回归器，分别产生目标的种类和位置、目标大小及方向。分类器为一个二维卷积conv2d(512，18)，输入512维，输出18维，即输出为目标种类。回归器为一个二维卷积conv2d(512，42)，输入512维，输出42维，即输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。

为验证本申请方法在精确物体检测和远小物体检测上的性能，特进行仿真实验如下：1.

仿真条件及参数

对于kitti数据集，点云距离范围在x，y，z方向上分别为[0m,70.4m]、[-40m,40m]和[-3m,1m]，体素大小设置为(0.05m,0.05m,0.1m)，点云体素结构由1600×1408×40个体素组成。设置两个沿着x方向角度不同的锚框，分别为0°和90°。对于汽车、行人和骑行者，设置的锚框大小分别为(3.9m,1.6m,1.56m)，(0.8m,0.6m,1.73m)和(1.76m,0.6m,1.73m)。网络优化器使用one_cycle策略的ADAM优化器，最大学习率为0.003，权重衰减为0.01，动量为0.9，批量大小设置为1，迭代次数为100次。

实验环境为RTX2080Ti显卡，深度学习框架为Pytorch，训练时间大约为44小时。对于数据增强，由于同时使用点云和图片多模态数据，点云所做的数据增强需与图片数据增强需保持一致，因此本实验数据增强采用x轴随机翻转、全局旋转和缩放，不采用目标真值采样数据增强。

2.仿真内容及结果分析

为了验证实施例一所述的方法在检测远小物体时的检测性能，本申请在Kitti公开数据集上进行对比实验，对比算法有：

MV3D，可参考Chen X,Ma H,Wan J,et al.Multi-view 3d object detectionnetwork for autonomous driving[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017:1907-1915.

PIXOR，可参考Chen X,Ma H,Wan J,et al.Multi-view 3d object detectionnetwork for autonomous driving[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017:1907-1915.

F-PointNet，可参考Qi C R,Liu W,Wu C,et al.Frustum pointnets for 3dobject detection from rgb-d data[C].Proceedings of the IEEE conference oncomputer vision and pattern recognition,2018:918-927.

VoxelNet，可参考Zhou Y,Tuzel O.Voxelnet:End-to-end learning for pointcloud based 3d object detection[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018:4490-4499.

和MVX-Net，可参考Sindagi V A,Zhou Y,Tuzel O.MVX-Net:Multimodalvoxelnet for3D object detection[C].2019International Conference on Roboticsand Automation(ICRA),2019:7276-7282.等目前常用的目标检测算法。

对比过程采用定性分析和定量分析，定性分析直接通过目标检测结果图的视觉对比观察结果的优劣；定量分析则通过计算评价指标判断算法的性能。实验中采用的指标有mAP。

表1和表2分别展示了本发明方法与基准方法VoxelNet在kitti验证集三维模式指标和鸟瞰图指标的mAP分数，mAP分数越高，检测性能越好，mAP分数越低，检测性能越差。

三维模式中，相比较于基准方法VoxelNet，本发明方法在汽车、行人和骑行者的困难检测指标上分别提高了5.49％、2.53％和1.31％，在中等检测指标上分别提高了8.78％、3.55％和3.85％。

值得注意是，本发明方法在鸟瞰图和三维模式困难指标上，性能均得到大幅度提升。同样地，本发明方法的性能较最近表现很好的方法更优异，表3和表4分别展示了本方法在汽车类与多种单模态和多模态方法的实验结果对比，相比较于多模态方法MV3D，本发明方法在三维模式验证集上分别提升了13.8％，11.41％和13.96％，相比较于F-PointNet，本发明方法在中等和困难指标上提升了3.34％和4.64％，相比较于MVX-Net，本发明方法在中等和困难指标上均提升了0.94％。在三维模式验证集和鸟瞰图验证集结果中，本发明方法较多种单模和多模检测方法性能都得到极大的提升。实验结果证明了本发明方法的有效性，极大的改善了基准方法VoxelNet体素过程中信息丢失的不足，提升了远小困难物体的检测性能。

表1三维模式验证集结果

表2鸟瞰模式验证集结果

表3汽车类三维模式验证集结果

表4汽车类鸟瞰模式验证集结果

图8中第一行代表场景的标签数据，包含近处的六辆汽车、远处的三辆车以及一辆遮挡严重的汽车(右上角方框标出)。第二行代表基准方法VoxelNet的检测结果，近处六辆汽车无遮挡且点云信息丰富，VoxelNet成功检测出。最远的两辆汽车部分遮挡且点云稀疏，VoxelNet漏检了该两辆汽车(右上角方框标出)。第三行为本发明方法的检测结果，本发明方法成功检测了出所有VoxelNet成功检测结果，包含近处的六辆汽车以及较远距离的一辆汽车，值得注意的是，本发明方法成功检测出了VoxelNet方法漏检的远处两辆部分遮挡汽车。

通过以上分析可以看出，本发明方法能够在远距离物体和小物体的复杂环境下，有效的检测到目标物体。检测性能优于所有对比算法，能在复杂环境下完成三维目标检测任务，综合性能明显提高。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模数据融合的三维目标检测方法，其特征在于，所述方法在获取到真实场景的图片和对应的点云数据后，首先使用特征提取器VFE将点云数据的体素特征转为高阶表示；之后，利用预训练的faster RCNN网络提取图片多层语义特征，然后根据投影关系，将点云投影到图片多层语义特征上，通过双线性插值分别获得点云对应的图片多层语义特征；然后，通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息；通道和体素双注意力机制增强有用特征，抑制无用特征；最后体素特征送入卷积网络和区域提议网络实现目标检测。

2.根据权利要求1所述的方法，其特征在于，以kitti目标检测标记数据集作为真实场景的图片和对应的点云数据，所述方法包括：