CN112347987A - 一种多模数据融合的三维目标检测方法 - Google Patents
一种多模数据融合的三维目标检测方法 Download PDFInfo
- Publication number
- CN112347987A CN112347987A CN202011372898.7A CN202011372898A CN112347987A CN 112347987 A CN112347987 A CN 112347987A CN 202011372898 A CN202011372898 A CN 202011372898A CN 112347987 A CN112347987 A CN 112347987A
- Authority
- CN
- China
- Prior art keywords
- voxel
- convolution
- picture
- feature
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 79
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000004040 coloring Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 26
- 238000012795 verification Methods 0.000 description 8
- 238000003909 pattern recognition Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 3
- 238000004451 qualitative analysis Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种多模数据融合的三维目标检测方法,充分利用了图片信息,主要解决了点云稀疏性和远小物体难以检测的问题。首先,该方法采用体素特征提取,对体素内点进行编码,获取体素级别特征。其次,进行图片多层语义特征提取和点云着色,底层语义特征提供精确位置信息,高层语义特征提供语义信息,点云与图片信息融合。然后,进行体素特征增强,体素邻域点云特征弥补体素离散过程中点云信息丢失的缺陷。最后,引入了双注意力机制,通道注意力机制和体素注意力机制增强了有用特征信息,抑制了无用特征信息。本发明方法能解决点云稀疏性和远小物体难以检测的问题,能增强有用特征信息,抑制无用特征信息,提高了目标检测性能。
Description
技术领域
本发明涉及一种多模数据融合的三维目标检测方法,属于模式识别和智能信息处理领域。
背景技术
三维目标检测作为视觉感知系统中重要的一步,在自动驾驶、机器人、虚拟现实和增强现实等领域得到了广泛的应用。激光雷达传感器由于其直接获取空间目标的三维结构信息和精确的深度信息的特点,被广泛利用在自动驾驶和机器人领域来捕获三维场景信息。然而,由于激光雷达点云数据的稀疏性和不均匀性的缺点,导致其在精确物体检测和远小物体检测上表现不佳。
大部分的三维检测方法根据三维点云的表示方法不同,可分为基于体素的方法、基于多视角的方法和基于点云的方法。对于体素方法,点云被转换为间隔规则的三维体素网格,其中每个体素单元包含点云坐标等特征。三维卷积网络用于从体素网格中提取体素的高阶表示。VoxelNet(Zhou Y,Tuzel O.Voxelnet:End-to-end learning for pointcloud based 3d object detection[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018:4490-4499.)提出了端到端的深度学习框架,利用特征提取器VFE层学习体素特征,由于点云本质上是稀疏且不均匀的,稀疏的体素网格带来了大量冗余的计算。同时,VoxelNet在体素化过程中,规定了每个体素内最大点的数量,从而导致在体素内点的数量超过限制时点特征信息的丢失。Second(Yan Y,MaoY,Li B.Second:Sparsely embedded convolutional detection[J].Sensors,2018,18(10):3337.)提出了稀疏卷积以替代VoxelNet中的3D卷积提取特征,有效的减少计算量,提升了推理性能。对于多视角方法,Pixor(Yang B,Luo W,Urtasun R.Pixor:Real-time 3dobject detection from point clouds[C].Proceedings of the IEEE conference onComputer Vision and Pattern Recognition,2018:7652-7660.)将点云投影到鸟瞰图,以得到类似图片的密集的紧凑的表示形式,二维卷积网络进而提取点云特征。但在投影离散过程中会带来信息损失,导致远物体检测困难。对于点云方法,直接从原始点云数据提取特征,不会带来因体素化带来的信息损失。PointNet(Qi C R,Su H,Mo K,et al.Pointnet:Deep learning on point sets for 3d classification and segmentation[C].Proceedings of the IEEE conference on computer vision and patternrecognition,2017:652-660.)是一个端到端的深度神经网络,直接从原始点云中学习到点云的全局特征,该方法在三维目标识别、实例分割和语义分割有很好的效果。PointNet++对PointNet进行了改进,能够学习到点云不同尺度的局部特征,但因为也是基于点云数据,因此也存在因为点云的稀疏性导致的对于远距离物体检测性能较差的问题。因此上述三类方法,检测性能都会因为点云的稀疏性在检测远距离物体时变差。
发明内容
为了解决现有检测方法因为真实场景中点云稀疏性导致远小物体难以检测的问题,本申请提出的一种多模数据融合的三维目标检测方法,所述方法在获取到真实场景的图片和对应的点云数据后,首先使用特征提取器VFE将点云数据的体素特征转为高阶表示;之后,利用预训练的faster RCNN网络提取图片多层语义特征,然后根据投影关系,将点云投影到图片多层语义特征上,通过双线性插值分别获得点云对应的图片多层语义特征;然后,通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息;通道和体素双注意力机制增强有用特征,抑制无用特征;最后体素特征送入卷积网络和区域提议网络实现目标检测。
可选的,以kitti目标检测标记数据集作为真实场景的图片和对应的点云数据,所述方法包括:
(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格,沿着x、y、z方向,点云数据的长、宽和深度范围分别为d、w和h;定义每个体素的长、宽和深度分别为vd、vw、vh,则最后的三维体素网格的长、宽和深度为
(2)构建特征提取器,所述特征提取器VFE由一个全连接网络和一个最大池化操作组成,叠加的特征提取器在体素级别对体素内的每个点进行编码,输出VFE特征;全连接网络由一个线性层、一个批归一化操作和一个ReLU层组成;
(3)训练一个基于resnet的faster RCNN网络;将resnet的层1至层4模块作为图片的多层语义特征提取器,输出图片特征图;
(4)利用点云与图片之间的映射关系,将点云映射到图片特征图,通过插值获取点云对应的图片多层语义特征信息,使用一个全连接网络对图片特征进行转换,之后对每个点的多层语义特征进行连接;
(6)通道注意力发掘不同模态特征的重要程度,通道注意力的输入为图片特征、VFE特征和体素邻域加强特征,通道注意力由两个线性层和一个sigmoid操作组成;
(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度,增强有用特征,抑制无用特征,体素注意力由一个线性层和一个sigmoid操作组成;
(10)将最后特征图送入分类器和回归器,分别得到待检测目标的种类和位置、目标大小及方向。
可选的,所述特征提取器由两个叠加的特征提取器VFE1和VFE2组成,所述(2)构建特征提取器,包括:
2.2计算非空体素V内所有点的坐标均值作为体素V的聚类中心(cx,cy,cz),同时体素在三维体素网格中的坐标作为体素V的坐标Vcenter(vx,vy,vz),然后计体素V内每个点相对聚类中心和体素坐标Vcenter的坐标偏移,并对点的特征进行连接,从而获取特征提取器VFE输入Vin:
2.2输入特征Vin通过全连接网络进行特征升维转换到特征空间 此时非空体素V内所有点的特征维度升至m维,m=64;之后通过聚合Vfeature特征信息对每个体素所表示的三维物体的表面形状进行编码,即对Vfeature进行最大池化获取体素V的局部聚合特征
2.3将2.2获取到的非空体素V的局部聚合特征Vlocal与Vfeature进行连接以对V内所有点进行特征增强;得到特征提取器VFE的输出Vout:
T表示体素内包含点的个数。
可选的,所述将resnet的层1至层4模块作为图片的多层语义特征提取器,输出图片特征图,包括:
输入图片维度,包括图片的宽、高和通道,resnet的层1至层4依次提高图片通道维数到256、512、1024和2048,以2倍比例减少图片尺寸大小,特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数,输出图片的多层语义特征。
可选的,所述利用点云与图片之间的映射关系,将点云映射到图片特征图,通过插值获取点云对应的图片多层语义特征信息,使用一个全连接网络对图片特征进行转换,之后对每个点的多层语义特征进行连接包括:
对于一个体素,通过将体素内点云着色,T个点对应的图片特征为128维,体素内T个点的图片特征进行聚合操作以获得体素级别特征,此时体素图片特征为(D,W,H,128);
对于体素V坐标Vcenter,在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。
可选的,所述对于体素V坐标Vcenter,在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息,包括:
给定一个点云{Pt=(xt,yt,zt,rt)|t=1,…,N},其中(xt,yt,zt)为点Pt的世界坐标,rt为点Pt反射值特征;对于体素坐标在半径不大于r的邻域内寻找最多K个点,则得到体素坐标的邻域集合
叠加全卷积网络由两个全卷积网络组成,每个全卷积网络由一个二维卷积、一个批归一化和一个ReLU操作组成,二维卷积的卷积核大小为1,输出维度为32;
此时所有体素特征经过加强后,其特征为(D,W,H,64)。
可选的,通道注意力中两个线性层为Linear1(256,32)和Linear2(32,256),Linear1(256,32)代表输入为(D×W×H,256),输出为(D×W×H,32),输入为256维,输出为32维,Linear2(32,256)同理。
可选的,体素注意力中线性层输入输出分别为259和1。
卷积中间层由5个卷积模块组成,第一个卷积模块为Block1(SubMConv3d(),SubMConv3d()):由两个子流行卷积模块组成,其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成,子流行卷积输入维度256,输出维度16;第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成,其中稀疏卷积模块由一个稀疏卷积、一个批归一化和一个ReLU操作组成;第二到第四个卷积模块输出维度分别为32,64,64;第五个卷积模块由一个稀疏卷积模块组成,稀疏卷积步长为(1,1,2),输出维度为128;经过卷积中间层的体素特征变为
区域提议网络由两个下采样模块和两个上采样模块组成;每个下采样模块由六个全卷积网络Conv2d组成,除了第二个下采样模块中第一个全卷积网络的步长为2,其余全卷积网络步长均为1,每个下采样模块的后五个全卷积网络输入输出维度一致,两个下采样模块输出维度分别为128和256;每个全卷积网络都包含一个二维卷积、一个批归一化和一个ReLU操作;上采样模块将两个下采样模块的输出升维至256以保持特征图的高分辨率;对两个上采样模块的输出维度进行连接获取最后特征图为
可选的,所述将最后特征图送入分类器和回归器,分别得到待检测目标的种类和位置、目标大小及方向,包括:
分类器为一个二维卷积conv2d(512,18),输入512维,输出18维,输出为目标的种类;回归器为一个二维卷积conv2d(512,42),输入512维,输出42维,输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。
本发明有益效果是:
本申请在进行三维目标检测时,首先使用特征提取器VFE将体素特征转为高阶表示;之后,利用预训练的faster RCNN网络提取图片语义特征,然后根据投影关系,将三维点云投影到图片多层语义特征图上,通过双线性插值分别获得点云对应的特征;然后,通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息;同时通过通道和体素双注意力机制增强有用特征,抑制无用特征,从而解决了现有三维目标检测过程中因为点云的稀疏性导致的对于远距离物体检测性能较差的问题,有效提升了对于远小困难物体的检测性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是实施例1的实现流程图。
图2为实施例1的本发明方法中图片特征残差网络的主要结构示意图。
图3为实施例1的本发明方法中点云映射获取图片特征的主要结构示意图。
图4为实施例1的本发明方法中通道注意力的主要结构示意图。
图5为实施例1的本发明方法中体素注意力的主要结构示意图。
图6为实施例1的本发明方法中卷积中间层的主要结构示意图。
图7为实施例1的本发明方法中区域提议网络的主要结构示意图。
图8为实施例1的本发明方法同VoxelNet对比方法的定性分析对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为便于理解本发明技术方案,首先对本发明技术方案设计的基础理论介绍如下:
1.VoxelNet网络
VoxelNet网络的主要组成部分为(1)特征提取器、(2)卷积中间层和(3)区域提议网络。其主要思想是通过特征提取器将每个体素内的点与局部聚合特征进行连接,获取体素内部的点之间的交互关系,进而得到体素级别特征,叠加的特征提取器VFE使得每个体素学习到局部三维信息的复杂特征,然后卷积中间层进一步聚合局部的体素特征,扩大其感受野,将点云转换到高维度量表示,最后区域提议网络利用体素特征产生检测结果。
由于特征提取器的输出特征包含了点级别的特征和体素级别的局部聚合特征,叠加的特征提取器能够进一步对体素内点之间的关系进行编码,使得最后的特征表示能学习到三维物体的表面结构信息。叠加的特征提取器的输出送入一个全连接网络,利用最大池化获取体素级别特征。
2.损失函数
损失函数用来评估模型的预测值与真实值之间的差异程度,也是神经网络中优化的目标函数。神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确性也就越好。模型对样本的预测输出越接近真实样本标签0,损失值L越小;预测越接近1,L越大。
实施例一:
本实施例提供一种多模数据融合的三维目标检测方法,参见图1,所述方法包括:
(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格,沿着x、y、z方向,点云数据长、宽和深度范围分别为d、w和h,定义每个体素的长、宽和深度分别为vd、vw、vh,则最后的三维体素网格的长、宽和深度为
首先计算体素V内所有点的坐标均值作为体素V的聚类中心(cx,cy,cz),同时体素在三维体素网格中的坐标作为体素V的坐标Vcenter(vx,vy,vz),然后计体素V内每个点相对聚类中心和体素坐标Vcenter的坐标偏移,并对点的特征进行连接,从而获取特征提取器VFE输入:
输入特征Vin通过全连接网络进行特征升维转换到特征空间 此时体素V内所有点的特征维度升至m维,m=64。之后通过聚合Vfeature特征信息对每个体素所表示的三维物体的表面形状进行编码,即对Vfeature进行最大池化获取体素V的局部聚合特征
本申请采用两个叠加的特征提取器VFE1和VFE2对体素进行特征提取,VFE1的输出作为VFE2的输入。两个叠加的特征提取器为VFE1(10,128)和VFE2(128,64),即VFE1的输入为(T,10),输出为(T,128),T为默认值5,代表体素V内点的数量,输入特征维度为10,输出特征维度为128,VFE2(128,64)同理;
(3)训练一个基于resnet的faster RCNN网络,该网络首先在COCO数据集上训练,然后在kitti数据集上微调。根据图2所示,输入图片维度为宽、高和通道,resnet的层1至层4依次提高图片通道维数到256、512、1024和2048,以2倍比例减少图片尺寸大小,特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数,输出图片的多层语义特征;
使用一个全连接网络对图片特征进行转换,输出维度128,之后对每个点的多层语义特征进行连接,将连接特征进一步转换,最后输出维度128,则最后点P的图片特征为对于一个体素,通过将体素内点云着色,T个点对应的图片特征为128维,体素内T个点的图片特征进行聚合操作以获得体素级别特征,此时体素图片特征为(D,W,H,128);
(5)对于体素V坐标Vcenter,在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。具体步骤为:
给定一个点云{Pt=(xt,yt,zt,rt)|t=1,…,N},其中(xt,yt,zt)为点Pt的世界坐标,rt为点Pt反射值特征。对于体素坐标在半径不大于r的邻域内寻找最多K个点,则得到体素坐标的邻域集合
其中,Q为对邻域集合SVcenteri的随机采样以保持最多K个邻域点,M为一个对点的特征和局部位置进行编码的叠加全卷积网络,max为最大池化操作,以保证所有体素特征维度一致。叠加全卷积网络由两个全卷积网络组成,每个全卷积网络由一个二维卷积(卷积核大小为1,输出维度为32)、一个批归一化和一个ReLU操作组成,即的特征维度为32。同时利用多尺度的邻域信息,以聚合不同感受野的局部特征,从而获取体素更加丰富的不同尺寸的上下文信息。设置两个不同的半径r和j,和的特征维度均为32,连接二者特征获得最后加强的体素特征维度为64。此时所有体素特征经过加强后,其特征为(D,W,H,64)。
(6)通道注意力发掘不同模态特征的重要程度;
根据图4所示,通道注意力输入为图片特征、VFE特征和体素邻域加强特征,其中两个线性层为Linear1(256,32)和Linear2(32,256),Linear1(256,32)代表输入为(D×W×H,256),输出为(D×W×H,32),输入为256维,输出为32维,Linear2(32,256)同理,‘+’为连接操作,‘×’为对应元素相乘;
(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度,增强有用特征,抑制无用特征。在送入体素注意力之前,体素特征与体素三维坐标连接,以提供精确的三维物体的位置信息,此时体素注意力的输入为(D,W,H,259)。根据图5所示,体素注意力由一个线性层和一个sigmoid操作组成,其中线性层输入输出分别为259和1,‘+’为连接操作,‘×’为对应元素相乘;
(8)经过双注意力机制加强的体素特征(D,W,H,256)送入到一组卷积中间层,三维卷积进一步扩大每个体素特征的感受野,同时获得语义信息来提升目标检测性能。
根据图6所示,卷积中间层由5个卷积模块组成,第一个卷积模块为Block1(SubMConv3d(),SubMConv3d()):由两个子流行卷积模块组成,其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成,子流行卷积输入维度256,输出维度16。第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成,其中稀疏卷积模块由一个稀疏卷积(步长均为2)、一个批归一化和一个ReLU操作组成,例如第二个卷积模块组成如下:Block2(SparseConv3d(),SubMConv3d(),SubMConv3d())。第二到第四个卷积模块输出维度分别为32,64,64。第五个卷积模块由一个稀疏卷积模块组成,稀疏卷积步长为(1,1,2),输出维度为128。每个模块的输出维度用橘色数字表示。无特殊说明情况下,流行卷积模块步长均为1。经过卷积中间层的体素特征变为
(9)区域提议网络将卷积中间层的输出特征在H维度进行压缩,此时体素特征为并通过下采样和上采样操作获取特征图。根据图7所示,区域提议网络由两个下采样模块和两个上采样模块组成。每个下采样模块由六个全卷积网络Conv2d组成,除了第二个下采样模块中第一个全卷积网络的步长为2,其余全卷积网络步长均为1,每个下采样模块的后五个全卷积网络输入输出维度一致,两个下采样模块输出维度分别为128和256。每个全卷积网络都包含一个二维卷积、一个批归一化和一个ReLU操作。上采样模块将两个下采样模块的输出升维至256以保持特征图的高分辨率。对两个上采样模块的输出维度进行连接获取最后特征图为
(10)特征图送入分类器和回归器,分别产生目标的种类和位置、目标大小及方向。分类器为一个二维卷积conv2d(512,18),输入512维,输出18维,即输出为目标种类。回归器为一个二维卷积conv2d(512,42),输入512维,输出42维,即输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。
为验证本申请方法在精确物体检测和远小物体检测上的性能,特进行仿真实验如下:1.
仿真条件及参数
对于kitti数据集,点云距离范围在x,y,z方向上分别为[0m,70.4m]、[-40m,40m]和[-3m,1m],体素大小设置为(0.05m,0.05m,0.1m),点云体素结构由1600×1408×40个体素组成。设置两个沿着x方向角度不同的锚框,分别为0°和90°。对于汽车、行人和骑行者,设置的锚框大小分别为(3.9m,1.6m,1.56m),(0.8m,0.6m,1.73m)和(1.76m,0.6m,1.73m)。网络优化器使用one_cycle策略的ADAM优化器,最大学习率为0.003,权重衰减为0.01,动量为0.9,批量大小设置为1,迭代次数为100次。
实验环境为RTX2080Ti显卡,深度学习框架为Pytorch,训练时间大约为44小时。对于数据增强,由于同时使用点云和图片多模态数据,点云所做的数据增强需与图片数据增强需保持一致,因此本实验数据增强采用x轴随机翻转、全局旋转和缩放,不采用目标真值采样数据增强。
2.仿真内容及结果分析
为了验证实施例一所述的方法在检测远小物体时的检测性能,本申请在Kitti公开数据集上进行对比实验,对比算法有:
MV3D,可参考Chen X,Ma H,Wan J,et al.Multi-view 3d object detectionnetwork for autonomous driving[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017:1907-1915.
PIXOR,可参考Chen X,Ma H,Wan J,et al.Multi-view 3d object detectionnetwork for autonomous driving[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017:1907-1915.
F-PointNet,可参考Qi C R,Liu W,Wu C,et al.Frustum pointnets for 3dobject detection from rgb-d data[C].Proceedings of the IEEE conference oncomputer vision and pattern recognition,2018:918-927.
VoxelNet,可参考Zhou Y,Tuzel O.Voxelnet:End-to-end learning for pointcloud based 3d object detection[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018:4490-4499.
和MVX-Net,可参考Sindagi V A,Zhou Y,Tuzel O.MVX-Net:Multimodalvoxelnet for3D object detection[C].2019International Conference on Roboticsand Automation(ICRA),2019:7276-7282.等目前常用的目标检测算法。
对比过程采用定性分析和定量分析,定性分析直接通过目标检测结果图的视觉对比观察结果的优劣;定量分析则通过计算评价指标判断算法的性能。实验中采用的指标有mAP。
表1和表2分别展示了本发明方法与基准方法VoxelNet在kitti验证集三维模式指标和鸟瞰图指标的mAP分数,mAP分数越高,检测性能越好,mAP分数越低,检测性能越差。
三维模式中,相比较于基准方法VoxelNet,本发明方法在汽车、行人和骑行者的困难检测指标上分别提高了5.49%、2.53%和1.31%,在中等检测指标上分别提高了8.78%、3.55%和3.85%。
值得注意是,本发明方法在鸟瞰图和三维模式困难指标上,性能均得到大幅度提升。同样地,本发明方法的性能较最近表现很好的方法更优异,表3和表4分别展示了本方法在汽车类与多种单模态和多模态方法的实验结果对比,相比较于多模态方法MV3D,本发明方法在三维模式验证集上分别提升了13.8%,11.41%和13.96%,相比较于F-PointNet,本发明方法在中等和困难指标上提升了3.34%和4.64%,相比较于MVX-Net,本发明方法在中等和困难指标上均提升了0.94%。在三维模式验证集和鸟瞰图验证集结果中,本发明方法较多种单模和多模检测方法性能都得到极大的提升。实验结果证明了本发明方法的有效性,极大的改善了基准方法VoxelNet体素过程中信息丢失的不足,提升了远小困难物体的检测性能。
表1三维模式验证集结果
表2鸟瞰模式验证集结果
表3汽车类三维模式验证集结果
表4汽车类鸟瞰模式验证集结果
图8中第一行代表场景的标签数据,包含近处的六辆汽车、远处的三辆车以及一辆遮挡严重的汽车(右上角方框标出)。第二行代表基准方法VoxelNet的检测结果,近处六辆汽车无遮挡且点云信息丰富,VoxelNet成功检测出。最远的两辆汽车部分遮挡且点云稀疏,VoxelNet漏检了该两辆汽车(右上角方框标出)。第三行为本发明方法的检测结果,本发明方法成功检测了出所有VoxelNet成功检测结果,包含近处的六辆汽车以及较远距离的一辆汽车,值得注意的是,本发明方法成功检测出了VoxelNet方法漏检的远处两辆部分遮挡汽车。
通过以上分析可以看出,本发明方法能够在远距离物体和小物体的复杂环境下,有效的检测到目标物体。检测性能优于所有对比算法,能在复杂环境下完成三维目标检测任务,综合性能明显提高。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多模数据融合的三维目标检测方法,其特征在于,所述方法在获取到真实场景的图片和对应的点云数据后,首先使用特征提取器VFE将点云数据的体素特征转为高阶表示;之后,利用预训练的faster RCNN网络提取图片多层语义特征,然后根据投影关系,将点云投影到图片多层语义特征上,通过双线性插值分别获得点云对应的图片多层语义特征;然后,通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息;通道和体素双注意力机制增强有用特征,抑制无用特征;最后体素特征送入卷积网络和区域提议网络实现目标检测。
2.根据权利要求1所述的方法,其特征在于,以kitti目标检测标记数据集作为真实场景的图片和对应的点云数据,所述方法包括:
(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格,沿着x、y、z方向,点云数据的长、宽和深度范围分别为d、w和h;定义每个体素的长、宽和深度分别为vd、vw、vh,则最后的三维体素网格的长、宽和深度为
(2)构建特征提取器,所述特征提取器VFE由一个全连接网络和一个最大池化操作组成,叠加的特征提取器在体素级别对体素内的每个点进行编码,输出VFE特征;全连接网络由一个线性层、一个批归一化操作和一个ReLU层组成;
(3)训练一个基于resnet的faster RCNN网络;将resnet的层1至层4模块作为图片的多层语义特征提取器,输出图片特征图;
(4)利用点云与图片之间的映射关系,将点云映射到图片特征图,通过插值获取点云对应的图片多层语义特征信息,使用一个全连接网络对图片特征进行转换,之后对每个点的多层语义特征进行连接;
(6)通道注意力发掘不同模态特征的重要程度,通道注意力的输入为图片特征、VFE特征和体素邻域加强特征,通道注意力由两个线性层和一个sigmoid操作组成;
(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度,增强有用特征,抑制无用特征,体素注意力由一个线性层和一个sigmoid操作组成;
(10)将最后特征图送入分类器和回归器,分别得到待检测目标的种类和位置、目标大小及方向。
3.根据权利要求2所述的方法,其特征在于,所述特征提取器由两个叠加的特征提取器VFE1和VFE2组成,所述(2)构建特征提取器,包括:
2.2计算非空体素V内所有点的坐标均值作为体素V的聚类中心(cx,cy,cz),同时体素在三维体素网格中的坐标作为体素V的坐标Vcenter(vx,vy,vz),然后计体素V内每个点相对聚类中心和体素坐标Vcenter的坐标偏移,并对点的特征进行连接,从而获取特征提取器VFE输入Vin:
2.2输入特征Vin通过全连接网络进行特征升维转换到特征空间 此时非空体素V内所有点的特征维度升至m维,m=64;之后通过聚合Vfeature特征信息对每个体素所表示的三维物体的表面形状进行编码,即对Vfeature进行最大池化获取体素V的局部聚合特征
2.3将2.2获取到的非空体素V的局部聚合特征Vlocal与Vfeature进行连接以对V内所有点进行特征增强;得到特征提取器VFE的输出Vout:
T表示体素内包含点的个数。
4.根据权利要求3所述的方法,其特征在于,所述将resnet的层1至层4模块作为图片的多层语义特征提取器,输出图片特征图,包括:
输入图片维度,包括图片的宽、高和通道,resnet的层1至层4依次提高图片通道维数到256、512、1024和2048,以2倍比例减少图片尺寸大小,特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数,输出图片的多层语义特征。
5.根据权利要求4所述的方法,其特征在于,所述利用点云与图片之间的映射关系,将点云映射到图片特征图,通过插值获取点云对应的图片多层语义特征信息,使用一个全连接网络对图片特征进行转换,之后对每个点的多层语义特征进行连接包括:
对于一个体素,通过将体素内点云着色,T个点对应的图片特征为128维,体素内T个点的图片特征进行聚合操作以获得体素级别特征,此时体素图片特征为(D,W,H,128);
对于体素V坐标Vcenter,在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述对于体素V坐标Vcenter,在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息,包括:
给定一个点云{Pt=(xt,yt,zt,rt)|t=1,…,N},其中(xt,yt,zt)为点Pt的世界坐标,rt为点Pt反射值特征;对于体素坐标在半径不大于r的邻域内寻找最多K个点,则得到体素坐标的邻域集合
叠加全卷积网络由两个全卷积网络组成,每个全卷积网络由一个二维卷积、一个批归一化和一个ReLU操作组成,二维卷积的卷积核大小为1,输出维度为32;
此时所有体素特征经过加强后,其特征为(D,W,H,64)。
7.根据权利要求6所述的方法,其特征在于,通道注意力中两个线性层为Linear1(256,32)和Linear2(32,256),Linear1(256,32)代表输入为(D×W×H,256),输出为(D×W×H,32),输入为256维,输出为32维,Linear2(32,256)同理。
8.根据权利要求7所述的方法,其特征在于,体素注意力中线性层输入输出分别为259和1。
卷积中间层由5个卷积模块组成,第一个卷积模块为Block1(SubMConv3d(),SubMConv3d()):由两个子流行卷积模块组成,其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成,子流行卷积输入维度256,输出维度16;第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成,其中稀疏卷积模块由一个稀疏卷积、一个批归一化和一个ReLU操作组成;第二到第四个卷积模块输出维度分别为32,64,64;第五个卷积模块由一个稀疏卷积模块组成,稀疏卷积步长为(1,1,2),输出维度为128;经过卷积中间层的体素特征变为
10.根据权利要求9所述的方法,其特征在于,所述将最后特征图送入分类器和回归器,分别得到待检测目标的种类和位置、目标大小及方向,包括:
分类器为一个二维卷积conv2d(512,18),输入512维,输出18维,输出为目标的种类;回归器为一个二维卷积conv2d(512,42),输入512维,输出42维,输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372898.7A CN112347987A (zh) | 2020-11-30 | 2020-11-30 | 一种多模数据融合的三维目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372898.7A CN112347987A (zh) | 2020-11-30 | 2020-11-30 | 一种多模数据融合的三维目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347987A true CN112347987A (zh) | 2021-02-09 |
Family
ID=74365094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011372898.7A Pending CN112347987A (zh) | 2020-11-30 | 2020-11-30 | 一种多模数据融合的三维目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347987A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095172A (zh) * | 2021-03-29 | 2021-07-09 | 天津大学 | 一种基于深度学习的点云三维物体检测方法 |
CN113240038A (zh) * | 2021-05-31 | 2021-08-10 | 西安电子科技大学 | 基于高度-通道特征增强的点云目标检测方法 |
CN113269147A (zh) * | 2021-06-24 | 2021-08-17 | 浙江海康智联科技有限公司 | 基于空间和形状的三维检测方法、系统、存储及处理装置 |
CN113569313A (zh) * | 2021-07-12 | 2021-10-29 | 北京铁科特种工程技术有限公司 | 基于激光雷达二次回波点云数据的铁路栅栏建模与识别方法 |
CN113591567A (zh) * | 2021-06-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标检测方法、目标检测模型的训练方法及其装置 |
CN113706480A (zh) * | 2021-08-13 | 2021-11-26 | 重庆邮电大学 | 一种基于关键点多尺度特征融合的点云3d目标检测方法 |
CN113900119A (zh) * | 2021-09-29 | 2022-01-07 | 苏州浪潮智能科技有限公司 | 一种激光雷达车辆检测的方法、系统、存储介质及设备 |
CN115661340A (zh) * | 2022-10-13 | 2023-01-31 | 南京航空航天大学 | 一种基于源信息融合的三维点云上采样方法与系统 |
WO2023222062A1 (zh) * | 2022-05-19 | 2023-11-23 | 安徽蔚来智驾科技有限公司 | 自动驾驶的目标检测方法、装置、介质及车辆 |
CN115661340B (zh) * | 2022-10-13 | 2024-05-28 | 南京航空航天大学 | 一种基于源信息融合的三维点云上采样方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
CN111046781A (zh) * | 2019-12-09 | 2020-04-21 | 华中科技大学 | 一种基于三元注意力机制的鲁棒三维目标检测方法 |
-
2020
- 2020-11-30 CN CN202011372898.7A patent/CN112347987A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
CN111046781A (zh) * | 2019-12-09 | 2020-04-21 | 华中科技大学 | 一种基于三元注意力机制的鲁棒三维目标检测方法 |
Non-Patent Citations (1)
Title |
---|
冯帆: "基于激光点云的地面自然场景目标检测与识别", 《中国优秀硕士论文全文数据库》, 15 March 2020 (2020-03-15) * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095172A (zh) * | 2021-03-29 | 2021-07-09 | 天津大学 | 一种基于深度学习的点云三维物体检测方法 |
CN113240038B (zh) * | 2021-05-31 | 2024-02-09 | 西安电子科技大学 | 基于高度-通道特征增强的点云目标检测方法 |
CN113240038A (zh) * | 2021-05-31 | 2021-08-10 | 西安电子科技大学 | 基于高度-通道特征增强的点云目标检测方法 |
CN113269147A (zh) * | 2021-06-24 | 2021-08-17 | 浙江海康智联科技有限公司 | 基于空间和形状的三维检测方法、系统、存储及处理装置 |
CN113591567A (zh) * | 2021-06-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 目标检测方法、目标检测模型的训练方法及其装置 |
CN113569313A (zh) * | 2021-07-12 | 2021-10-29 | 北京铁科特种工程技术有限公司 | 基于激光雷达二次回波点云数据的铁路栅栏建模与识别方法 |
CN113706480A (zh) * | 2021-08-13 | 2021-11-26 | 重庆邮电大学 | 一种基于关键点多尺度特征融合的点云3d目标检测方法 |
CN113706480B (zh) * | 2021-08-13 | 2022-12-09 | 重庆邮电大学 | 一种基于关键点多尺度特征融合的点云3d目标检测方法 |
CN113900119A (zh) * | 2021-09-29 | 2022-01-07 | 苏州浪潮智能科技有限公司 | 一种激光雷达车辆检测的方法、系统、存储介质及设备 |
CN113900119B (zh) * | 2021-09-29 | 2024-01-30 | 苏州浪潮智能科技有限公司 | 一种激光雷达车辆检测的方法、系统、存储介质及设备 |
WO2023222062A1 (zh) * | 2022-05-19 | 2023-11-23 | 安徽蔚来智驾科技有限公司 | 自动驾驶的目标检测方法、装置、介质及车辆 |
CN115661340A (zh) * | 2022-10-13 | 2023-01-31 | 南京航空航天大学 | 一种基于源信息融合的三维点云上采样方法与系统 |
CN115661340B (zh) * | 2022-10-13 | 2024-05-28 | 南京航空航天大学 | 一种基于源信息融合的三维点云上采样方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347987A (zh) | 一种多模数据融合的三维目标检测方法 | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
Huang et al. | Pf-net: Point fractal network for 3d point cloud completion | |
Yang et al. | Pixor: Real-time 3d object detection from point clouds | |
CN111127538B (zh) | 一种基于卷积循环编码-解码结构的多视影像三维重建方法 | |
Wang et al. | Reconfigurable voxels: A new representation for lidar-based point clouds | |
CN110852182A (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN112613378A (zh) | 3d目标检测方法、系统、介质及终端 | |
CN113989797A (zh) | 一种基于体素点云融合的三维动态目标检测方法及装置 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
Hoang et al. | 3ONet: 3D Detector for Occluded Object under Obstructed Conditions | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
CN113536920A (zh) | 一种半监督三维点云目标检测方法 | |
CN114913519B (zh) | 一种3d目标检测方法、装置、电子设备及存储介质 | |
CN115424225A (zh) | 一种面向自动驾驶系统的三维实时目标检测方法 | |
Xiao et al. | Instance-Aware Monocular 3D Semantic Scene Completion | |
CN114511846A (zh) | 一种基于点云跨视图特征转换的实时三维目标检测方法 | |
CN114881850A (zh) | 点云超分辨率方法、装置、电子设备及存储介质 | |
Wei et al. | An Efficient Point Cloud-based 3D Single Stage Object Detector | |
Liu et al. | Enhancing point features with spatial information for point-based 3D object detection | |
Shi et al. | 3D Vehicle Detection Algorithm Based on Multimodal Decision-Level Fusion. | |
CN116664874B (zh) | 一种单阶段细粒度轻量化点云3d目标检测系统及方法 | |
Xiang et al. | Learnable Upsampling-Based Point Cloud Semantic Segmentation | |
Gao et al. | Real-time 3D object detection using improved convolutional neural network based on image-driven point cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |