CN114495089A - 基于多尺度异源特征自适应融合的三维目标检测方法 - Google Patents

基于多尺度异源特征自适应融合的三维目标检测方法 Download PDF

Info

Publication number
CN114495089A
CN114495089A CN202111574943.1A CN202111574943A CN114495089A CN 114495089 A CN114495089 A CN 114495089A CN 202111574943 A CN202111574943 A CN 202111574943A CN 114495089 A CN114495089 A CN 114495089A
Authority
CN
China
Prior art keywords
layer
dimensional
convolution
feature
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111574943.1A
Other languages
English (en)
Inventor
朱虎明
杨贵鹏
焦李成
李佳昌
王晨
武文韬
惠少雄
王金成
侯彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202111574943.1A priority Critical patent/CN114495089A/zh
Publication of CN114495089A publication Critical patent/CN114495089A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提出了一种基于多尺度异源特征自适应融合的三维目标检测方法,主要解决现有技术在单一传感器数据下对低分辨率三维目标检测精度低的问题,其方案为:建立训练、测试样本集;对点云进行体素初始化和关键点采样;构建三维体素特征编码模块编码体素特征;构建三维候选框估计模块估计三维候选框;构建图像特征编码网络编码图像特征;构建异源特征融合模块融合体素特征、图像特征和关键点特征;构建关键点权重估计模块对关键点作二分类;建立输出层,构建三维目标检测模型并对其训练;使用训练好的模型对点云中的三维目标进行检测。本发明改进了对低分辨率三维目标的表征能力,提高了三维目标的检测精度,可应用于机器人导航、三维建模、自动驾驶与虚拟现实。

Description

基于多尺度异源特征自适应融合的三维目标检测方法
技术领域
本发明属于多传感器数据融合技术领域,特别涉及一种多尺度异源特征自适应融合的三维目标检测方法,可应用于机器人导航、三维建模、自动驾驶与虚拟现实。
背景技术
激光雷达和相机是智能车和机器人上最常见的传感器,对两者获取的点云和图像数据的处理决定了智能终端的智能化程度。然而,每个传感器既有自身优势,也纯在天然缺陷,点云包含精确的空间距离信息,但是数据很稀疏,缺乏颜色信息,受雨雾天气的影响大;图像具有高分辨率像素和丰富的纹理,但是无法获取物体之间的精确距离。因此,两者的优势互补,能够更好的帮助智能终端感知外部环境。因此,点云和图像的融合在智能化设备领域得到了充分的利用。
三维目标的检测是一种对三维空间目标进行三维检测的任务,其作为众多领域的重要应用,近年来受到了广泛的关注。随着神经网络的不断发展,基于深度学习的融合点云和图像数据的三维目标检测方法已成为了学界的研究热点,例如,Vora S等人发表的名称为“PointPainting:Sequential Fusion for 3D Object Detection”(CVPR2020)的论文中,使用图像语义分割后的信息辅助进行点云的三维目标检测,能够充分利用目标的语义信息,获得了很好的检测性能,然而,由于图像语义分割的结果将直接影响三维检测结果,鲁棒性差;史少帅等人发表的名称为“PV-RCNN:Point-Voxel Feature Set Abstractionfor 3D Object Detection”(CVPR2020)的论文中,使用体素特征融合点特征的方法,平衡了两种方法之间关于计算量大和空间特征信息丢失带来的问题,然而,此方法依旧存在单传感器对低分辨率目标的检测低的问题。
为了避免单一特征带来不足,引入了异源特征融合。异源特征融合就是将不同表征形式的特征进行融合,实质上就是通过组合不同特征带来的优势来提高三维目标检测的精度,例如申请公布号为CN111209840A的专利申请文献公开了一种基于多传感器数据融合的3D目标检测方法,其实现步骤为:1)分别利用两个神经网络对点云和图像进行逐点和逐像素的特征提取,在点云的前景点上进行区域建议。2)利用传感器的标定矩阵实现两种异质传感器数据的逐点关联,实现最大程度上的关联。3)最后利用一个神经网络对每一个区域的联合特征表示进行自适应的融合,并根据融合后的区域特征直接进行进一步得精细化调整。本发明虽然通过神经网络自适应地融合两类传感器数据特征,克服了点云数据稀疏和图像数据没有深度信息等不足,但是没有改变基于点的特征提取带来的大计算量和图像特征提取阶段与任务弱相关的问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出一种基于多尺度异源特征自适应融合的三维目标检测方法,以提高检测精度。
为实现上述目的,本发明的技术方案包括如下:
(1)从公开数据集中获取包括训练样本集E1和测试样本集E2,每个样本包括Lidar点云、RGB图像和三维目标的标注信息;
(2)构建包括异源特征融合模块和关键点权重估计模块的异源特征融合网络,其中,异源特征融合模块用于不同模态数据的多尺度特征融合,权重估计模块用于特征融合后关键点的权重估计;
(3)构建由异源特征编码模块、异源特征融合网络、三维候选框估计模块和输出层依次连接构成的三维目标检测模型T,其中:
所述异源特征编码模块,包括顺次连接的三维体素特征编码模块、图像特征编码模块,该体素特征编码模块用于多尺度体素空间特征的提取,该图像特征编码模块用于多尺度图像语义特征的提取;
所述三维候选框估计模块用于对三维目标的姿态信息进行粗估计,该姿态信息包括三维目标外接立方体的空间坐标、尺度和旋转角;
所述输出层用于对融合特征后关键点的池化及三维目标框的精确回归;
(4)利用训练样本集E1,采用梯度下降法对三维目标检测模型T进行训练,得到训练好的目标检测模型T*
(5)将测试样本集E2输入到训练好的目标检测模型T*进行前向传播,得到三维目标检测结果。
本发明与现有的技术相比,具有以下优点:
第一,本发明将点云的体素特征、图像的语义特征和点特征经过多尺度的级联方式进行了融合,充分利用了体素特征的规则化空间位置信息、图像特征的语义信息和点特征的精细化空间结构信息,提升了三维目标的检测性能和检测精度。
第二,本发明由于使用端到端训练的网络结构,充分耦合了不同特征编码网络的网络结构,有效地提高了不同特征融合的协同性。
附图说明
图1是本发明的实现流程图;
图2是本发明中构建的特征融合层结构图;
图3是本发明中构建的异源特征融合网络模型图;
图4是本发明中构建的关键点权重估计网络模型图;
图5是用本发明对点云数据进行三维目标检测的仿真结果图。
具体实施方式
以下结合附图对本发明的实施例和效果作进一步的详细说明。
参照图1,本实例的实现步骤包括如下:
步骤1:建立训练样本集和测试样本集;
从公开数据集KITTI中获取包括7481个样本的训练样本集E1和包括7518个样本的测试样本集E2,每个样本包括Lidar点云、RGB图像和三维目标的标注信息;
步骤2:预处理样本中的点云数据,得到体素集合V和关键点集合P。
2.1)设置点云筛选范围长(0,70)米、宽(-40,40)米、高(-1,3)米,将符合筛选范围的点云提取出来,得到点云集合Praw,大小为S*3,S表示Praw中点云的个数;
2.2)设置体素长0.05米、宽0.05米、高0.01米,将点云集合Praw按照体素大小划分,并将划分后的每个体素内包含的点云进行平均池化,得到体素集合V,V的大小为1600×1600×80×3;
2.3)采用随机采样法从点云集合Praw中随机采样N个关键点,构成关键点集合P,P的大小为N×3。
步骤3:构建三维体素特征编码模块,将步骤2得到的体素集合V作为体素特征编码模块的输入,得到体素特征图集合V1
3.1)建立6个三维稀疏卷积层,其中:
第1、第2个三维稀疏卷积层的卷积核大小均为3×3×3,卷积核个数均为16,步长均为(1,1,1);
第3、第4、第5个三维稀疏卷积层的卷积核大小均3×3×3,步长均为(2,2,2),积核个数分别为32、64、64;
第6三维稀疏卷积层的卷积核大小为3×1×1,卷积核个数为128,步长(2,1,1);
3.2)建立6个归一化层,其输入通道数分别为16、16、32、64、64、128;
3.3)建立6个Relu激活层,其表达式为
Figure BDA0003424943860000041
x表示输入,f(x)表示输出;
3.4)将以上所述6个三维稀疏卷积层、6个归一化层、6个Relu激活层进行连接构成三维体素特征编码模块,其连接关系为:
第1三维稀疏卷积层->第1归一化层->第1个Relu激活层->第2三维稀疏卷积层->第2归一化层->第2Relu激活层->第3三维稀疏卷积层->第3归一化层->第3Relu激活层->第4三维稀疏卷积层->第4归一化层->第4Relu激活层->第5三维稀疏卷积层->第5归一化层->第5Relu激活层->第6三维稀疏卷积->第6归一化层->第6Relu激活层;
3.5)将步骤2.2)得到的体素集合V作为三维体素特征编码模块的输入,把第2、第3、第4、第5、第6Relu激活层的输出结果保存,构成体素特征图集合
Figure BDA0003424943860000042
Figure BDA0003424943860000043
表示第a体素特征图。
步骤4:构建三维候选框估计模块,将步骤3得到体素特征图集合V1作为三维候选框估计模块的输入,得到三维候选框集合Brpn并计算三维候选框估计损失值Lrpn
4.1)建立4个卷积层,其中:
第1卷积层的卷积核大小为3,卷积核个数为256,步长为2;
第2、第3、第4个卷积层的卷积核大小为3,卷积核个数为256,步长为1;
4.2)建立4个归一化层,其输入通道数分别为128、256、256、256;
4.3)建立4个Relu激活层,其表达式为
Figure BDA0003424943860000044
x表示输入,f(x)表示输出;
4.4)建立2个全连接层,其输出通道数分别为18和42;
4.5)将上述4个卷积层、4个归一化层、4个Relu激活层和2个全连接层进行如下连接,构成三维候选框估计模块:
第1卷积层、第1归一化层、第1Relu激活层、第2卷积层、第2归一化层、第2Relu激活层、第3卷积层、第3归一化层、第3Relu激活层、第4卷积层、第4归一化层、第4Relu激活层依次级联,并将第1全连接层和第2全连接层分别与第4Relu激活层连接;
4.6)将步骤3.5)得到体素特征图集合V1中的中的第5体素特征图
Figure BDA0003424943860000051
作为三维候选框估计模块的输入,输出M个包含类别置信度和姿态信息的三维候选框,构成三维候选框集合
Figure BDA0003424943860000052
Figure BDA0003424943860000053
表示第m个三维候选框的信息;
4.7)计算三维候选框估计损失值Lrpn
4.7.1)采用交叉熵损失函数计算第m个三维候选框
Figure BDA0003424943860000054
的类别损失值
Figure BDA0003424943860000055
Figure BDA0003424943860000056
其中,
Figure BDA0003424943860000057
表示第m个三维候选框的类别概率值,ym表示第m个三维候选框的真实类别值;
4.7.2)采用smooth-L1损失函数计算三维候选框的总损失值Lrpn
Figure BDA0003424943860000058
其中,M表示Brpn中三维候选框的个数,
Figure BDA0003424943860000059
表示第m个三维候选框的预测偏移量,
Figure BDA00034249438600000510
表示第m个三维候选框相对于真实目标框的偏移量,β表示权重超参数。
步骤5:构建图像特征编码模块,将样本中的图像作为图像特征编码模块的输入,得到图像特征图集合F1
5.1)设置输入卷积层,其卷积核大小为7,卷积个数为64,步长为2,填充大小3;
5.2)设置归一化层,其输入通道数为64;
5.3)设置Relu激活层,其表达式为
Figure BDA0003424943860000061
x表示输入,f(x)表示输出;
5.4)设置最大池化层,其卷积核大小为3,步长为2;
5.5)设置4个残差模块,这4个残差模块的输出通道数分别为256、512、1024、2048;
5.6)将上述输入卷积层、归一化层、Relu激活层、最大池化层和4个残差模块依次级连构成图像特征编码模块,其连接关系为:
输入卷积层->归一化层->Relu激活层->最大池化层->第1残差模块->第2残差模块->第3残差模块->第4残差模块;
5.7)将样本中的图像作为图像特征编码模块的输入,把第1、第2、第3、第4残差块的输出结果保存,构成图像特征图集合
Figure BDA0003424943860000062
表示第c体素特征图。
步骤6:构建异源特征融合模块,将步骤3得到体素特征图集合V1、步骤5得到图像特征图集合F1和步骤2得到关键点集合P作为异源特征融合模块的输入,得到特征融合后的关键点集合P1
6.1)建立特征映射层,表达式为
Figure BDA0003424943860000063
其中,R表示从样本标注信息中获取的点云空间到图像空间的转换矩阵,P×R表示关键点集合P经过R转换以后在图像空间中的二维坐标,
Figure BDA0003424943860000064
表示第c个图像特征图,pc(P)表示关键点集合P中所有关键点在图像特征图集合F1的第c图像特征图中相应坐标位置的特征向量集合;
6.2)建立第一特征融合层;
设置输出通道分别为64、128、256的三个全连接层、输出通道分别为19、259、192的三个拼接层和输出为p1(P)的特征映射层,将这三个全连接层、三个拼接层和一个特征映射层进行连接构成第一特征融合层,其连接关系为:
将特征映射层、第一特征拼接层、第一全连接层依次级连,将第二特征拼接层、第二全连接层依次连接,第一全连接层和第二全连接层分别和第三特征拼接层连接,将第三特征拼接层、第三全连接层依次连接,如图2所示;
6.3)建立第二特征融合层,
设置输出通道分别为256、512、512的三个全连接层、输出通道分别为288、
768、768的三个拼接层和输出为p2(P)的特征映射层,将这三个全连接层、三个拼接层和一个特征映射层按照与第一特征融合层相同的连接关系构成第二特征融合层,如图2所示;
6.4)建立第三特征融合层;
设置输出通道分别为512、1024、1024的三个全连接层、输出通道分别为578、
1536、1536的三个拼接层和输出为p3(P)的特征映射层,将这三个全连接层、三个拼接层和一个特征映射层按照与第一特征融合层相同的连接关系构成第三特征融合层,如图2所示;
6.5)建立第四特征融合层;
设置输出通道分别为1024、2048、2048的三个全连接层、输出通道分别为1088、3092、3092的三个拼接层和输出为p4(P)的特征映射层,将这三个全连接层、三个拼接层和一个特征映射层按照与第一特征融合层相同的连接关系构成第四特征融合层,如图2所示;
6.6)将第一特征融合层、第二特征融合层、第三特征融合层、第四特征融合层依次级连构成异源特征融合模块,如图3所示;
6.7)将步骤3.5)得到体素特征图集合V1、步骤5.7)得到图像特征图集合F1和步骤2.3)得到关键点集合P作为异源特征融合模块的输入,结果为2048个融合了图像特征、体素特征和关键点特征的关键点,构成特征融合后的关键点集合
Figure BDA0003424943860000071
步骤7:构建关键点权重估计模块,将步骤5得到的图像特征图和步骤6得到的特征融合后的关键点集合P1作为关键点权重估计模块的输入,得到特征融合后的前景关键点集合P2并计算其二分类损失值Lseg
7.1)建立两个卷积层,其卷积核大小均为1,卷积核个数均为2;
7.2)建立两个反卷积层,其中:
第1反卷积层的卷积核大小为32,卷积核个数为2,步长为16;
第2反卷积层的卷积核大小为64,卷积核个数为2,步长为32;
7.3)建立两个全连接层,其输出通道数均为2;
7.4)建立一个特征拼接层,其输出通道数为2;
7.5)建立一个softmax层,其表达式为
Figure BDA0003424943860000081
其中u表示输入,g(u)表示输出;
7.6)将上述两个卷积层、两个反卷积层、两个全连接层、一个特征拼接层和softmax层进行如下连接,构成关键点权重估计模块:
将第1全连接层、第1反卷积层、第1卷积层依次级连,1卷积层和第2全连接层分别与第1特征拼接层连接,将第1特征拼接层、第2反卷积层、第2卷积层、softmax层依次级连,如图4所示;
7.7)将步骤5.7)得到的图像特征图集合F1中的第2特征图
Figure BDA0003424943860000082
和第4特征图
Figure BDA0003424943860000083
作为关键点权重估计模块的输入,对图像中的像素进了二分类,得到二值图f;
7.8)根据转换矩阵R,计算关键点集合P中所有关键点在f中相应坐标位置的分类结果
Figure BDA0003424943860000084
其中,
Figure BDA0003424943860000085
表示P中第n个关键点的分类结果,取P中结果值为1的关键点成为前景关键点,构成前景关键点集合
Figure BDA0003424943860000086
其中,
Figure BDA0003424943860000087
表示第w个前景关键点;
7.9)计算Pfront和P1的交集,得到特征融合后的前景关键点集合:
Figure BDA0003424943860000088
其中,
Figure BDA0003424943860000089
表示第w个特征融合后的前景关键点;
7.10)采用交叉熵损失函数计算关键点集合P的二分类损失值:
Figure BDA00034249438600000810
其中,N表示关键点集合P中关键点个数,
Figure BDA00034249438600000811
表示像素的类别预测概率值,yn表示像素的真实类别值。
步骤8:构建输出层,将步骤4得到三维候选框集合Brpn和步骤7得到特征融合后的前景关键点集合P2作为输出层的输入,得到最终预测的三维目标框集合Bout并计算其预测损失值Lrcnn
8.1)建立2个卷积层,其中:
第1卷积层的卷积核大小为1,卷积核个数为1024,步长为1;
第2卷积层的卷积核大小为1,卷积核个数为512,步长为2;
8.2)建立最大池化层,其卷积核大小为216*1,步长为1;
8.3)建立2个全连接层,其输出通道数分别为1和7;
8.4)将上述第一卷积层、第二卷积层、最大池化层依次级联,且第一全连接层和第二全连接层分别与最大池化层连接,构成输出层;
8.5)将步骤4.6)得到三维候选框集合Brpn和步骤7.8)得到特征融合后的前景关键点集合P2作为输出层的输入,输出K个包含类别信息和姿态信息的三维目标框,构成三维目标框集合
Figure BDA0003424943860000091
其中
Figure BDA0003424943860000092
表示第k个预测的三维目标框;
8.6)计算三维目标框预测损失值Lrcnn
8.6.1)采用交叉熵损失函数计算第k个预测的三维目标框的类别损失值
Figure BDA0003424943860000093
Figure BDA0003424943860000094
其中,
Figure BDA0003424943860000095
表示第k个预测的三维目标框的类别概率值,yk表示第k个预测的三维目标框的真实类别值;
8.6.2)采用smooth-L1损失函数计算预测的三维目标框的总损失值Lrcnn
Figure BDA0003424943860000096
其中,K表示Bout中预测得到的三维目标框的个数,
Figure BDA0003424943860000097
表示第k个预测的三维目标框偏移量,
Figure BDA0003424943860000098
表示第k个预测的三维目标框相对于真实的三维目标框的偏移量。
步骤9:构建基于多尺度异源特征自适应融合的三维目标检测模型T,利用梯度下降法对其进行训练得到训练好的三维目标检测模型。
9.1)设置初始化迭代次数为i,最大迭代次数为I,I≥100,第i次迭代的三维目标检测模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
9.2)将训练样本集E1输入到基于多尺度异源特征自适应融合的三维目标检测模型T中;
9.3)使用步骤4)得到的损失值Lrpn、步骤7)得到的损失值Lrcnn和步骤8)得到的损失值Lrcnn,采用加权求和的方式计算第i次迭代的三维目标检测模型的总损失值Li
Figure BDA0003424943860000101
其中,
Figure BDA0003424943860000102
表示Lrpn的权重超参数,γ表示Lseg的权重超参数;
9.4)根据总损失值Li,采用反向传播的方法,更新网络参数ωi,得到第i次的目标
检测模型Ti,ωi的更新公式如下:
Figure BDA0003424943860000103
其中,ω*表示ωi的更新结果,η表示L的学习率,
Figure BDA0003424943860000104
表示求导操作;
9.5)判断i≥I是否成立,若是,则得到训练好的三维目标检测模型T*,否则,令i=i+1,返回9.2)。
步骤10:将测试集E2输入到训练好的模型T*,得到最终的三维目标检测结果,计算检测精度。
下面结合仿真实验,对本发明的技术效果作进一步的描述。
1.仿真条件:
仿真实验使用的硬件平台为Nvidia RTX2080*2,12G RAM;软件平台为Python3.8,操作系统为ubuntu 18.04。
仿真实验中用到的数据集为KITTI数据集,该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作的汽车传感器数据,单帧点云数为60000多,图像大小为1243×375,包含3类目标,分别为汽车、非机动车和行人,仿真实验中选取7518个样本作为测试样本。
2.仿真内容:
分别使用现有PV-RCNN网络模型和本发明基于多尺度异源特征自适应融合的三维目标检测方法对KITI数据集进行三维目标检测,结果如图5,其中:
图5(a)为使用现有PV-RCNN网络模型的检测结果;
图5(b)为使用本发明方法的检测结果。
对比图5(a)和图5(b)的检测结果图可以看出,相比于PV-RCNN网络模型的检测结果,本发明方法对于非机动车、行人和远景车辆等低分辨率物体具有更好的检测效果,表明本发明的方法具有更好的检测精度。
利用各类别精度AP和平均精度mAP这两个评价指标对检测结果进行评价,当交并比阈值为0.5和样例难度为中等时,得到每类目标的检测精度AP和平均检测精度mAP,结果如表1。
表1 交并比阈值为0.5时各类别检测精度比较
评价指标 汽车 非机动车 行人 mAP
本发明 88.53 62.73 65.89 72.38
PV-RCNN 80.41 62.71 25.72 56.28
从表1的实验结果中可以看出,相对于现有技术,本发明对每类目标的检测精度有明显的提高,且本发明相对于PV-RCNN方法,平均检测精度mAP提高了16.10%。
综上,本发明基于多尺度异源特征自适应融合的三维目标检测方法,有效融合了各种数据特征的优势,获得了较好的三维检测效果。

Claims (9)

1.一种基于多尺度异源特征自适应融合的三维目标检测方法,其特征在于,包括:
(1)从公开数据集中获取包括训练样本集E1和测试样本集E2,每个样本包括Lidar点云、RGB图像和三维目标的标注信息;
(2)构建包括异源特征融合模块和关键点权重估计模块的异源特征融合网络,其中,异源特征融合模块用于不同模态数据的多尺度特征融合,权重估计模块用于特征融合后关键点的权重估计;
(3)构建由异源特征编码模块、异源特征融合网络、三维候选框估计模块和输出层依次连接构成的目标检测模型T,其中:
所述异源特征编码模块,包括顺次连接的三维体素特征编码模块、图像特征编码模块,该体素特征编码模块用于多尺度体素空间特征的提取,该图像特征编码模块用于多尺度图像语义特征的提取;
所述三维候选框估计模块用于对三维目标的姿态信息进行粗估计,该姿态信息包括三维目标外接立方体的空间坐标、尺度和旋转角;
所述输出层用于对融合特征后关键点的池化及三维目标框的精确回归;
(4)利用训练样本集E1,采用梯度下降法对三维目标检测模型T进行训练,得到训练好的目标检测模型T*
(5)将测试样本集E2输入到训练好的目标检测模型T*进行前向传播,得到三维目标检测结果。
2.根据权利要求1所述的方法,其特征在于,(2)中的异源特征融合模块,包括级联的4个不同尺度下结构相同的特征融合层,每个特征融合层包括3个全连接层、3个特征拼接层和特征映射层,具体结构为:
将特征映射层、第一特征拼接层、第一全连接层依次级连,将第二特征拼接层、第二全连接层依次连接,将第一全连接层和第二全连接层分别和第三特征拼接层连接,将第三特征拼接层、第三全连接层依次连接。
3.根据权利要求1所述的方法,其特征在于,(2)中的关键点权重估计模块包括两个卷积层、两个反卷积层、两个全连接层、一个特征拼接层、softmax层和坐标映射层,其结构关系为:第1全连接层、第1反卷积层、第1卷积层依次级连,1卷积层和第2全连接层分别与第1特征拼接层连接,第1特征拼接层、第2反卷积层、第2卷积层、softmax层、坐标映射层依次级连;
所述两个卷积层,其的卷积核大小均为1,卷积核个数均为2;
所述第1反卷积层,其卷积核大小为32,卷积核个数为2,步长为16;
所述第2反卷积层,其卷积核大小为64,卷积核个数为2,步长为32。
4.根据权利要求1所述的方法,其特征在于,(3)中的三维体素特征编码模块,包括6个三维稀疏卷积层、6个归一化层、6个Relu激活层,其结构关系为:
第1三维稀疏卷积层->第1归一化层->第1个Relu激活层->第2三维稀疏卷积层->第2归一化层->第2Relu激活层->第3三维稀疏卷积层->第3归一化层->第3Relu激活层->第4三维稀疏卷积层->第4归一化层->第4Relu激活层->第5三维稀疏卷积层->第5归一化层->第5Relu激活层->第6三维稀疏卷积->第6归一化层->第6Relu激活层;
所述第1、第2个三维稀疏卷积层的卷积核大小均为3×3×3,卷积核个数均为16,步长均为(1,1,1);
所述第3、第4、第5个三维稀疏卷积层的卷积核大小均3×3×3,步长均为(2,2,2),积核个数分别为32、64、64;
所述第6个三维稀疏卷积层的卷积核大小为3×1×1,卷积核个数为128,步长(2,1,1)。
5.根据权利要求1所述的方法,其特征在于,(3)中三维候选框估计模块,包括4个卷积层、4个归一化层、4个Relu激活层和2个全连接层,其第1卷积层、第1归一化层、第1Relu激活层、第2卷积层、第2归一化层、第2Relu激活层、第3卷积层、第3归一化层、第3Relu激活层、第4卷积层、第4归一化层、第4Relu激活层依次级联,且第1全连接层和第2全连接层分别与第4Relu激活层连接;
所述第1卷积层的卷积核大小为3,卷积核个数为256,步长为2;
所述第2、第3、第4个卷积层的卷积核大小为3,卷积核个数为256,步长为1。
6.根据权利要求1所述的方法,其特征在于,(3)中的输出层,包括2个卷积层、最大池化层、2个全连接层,其第一卷积层、第二卷积层、最大池化层依次级联,且第一全连接层和第二全连接层分别与最大池化层连接;
所述第1卷积层的卷积核大小为1,卷积核个数为1024,步长为1;
所述第2卷积层的卷积核大小为1,卷积核个数为512,步长为2。
7.根据权利要求1所述的方法,其特征在于,(4)中训练三维目标检测模型T,实现如下:
(4a)设置初始化迭代次数为i,最大迭代次数为I,I≥100,第i次迭代的三维目标检测模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
(4b)将训练样本集E1作为三维目标检测模型T的输入,对训练样本集E1中的点云进行三维体素初始化和关键点的随机采样,得到三维体素集合V和关键点集合P;
(4c)将体素集合V和训练样本集E1中的图像作为异源特征编码模块的输入,得到体素特征图集合V1和图像特征图集合F1
(4d)将体素特征图集合V1、图像特征图集合F1和关键点集合P作为异源特征融合模块的输入,借助空间坐标转换矩阵R,经过一系列卷积和拼接操作,得到特征融合后的关键点集合P1
(4e)将图像特征图集合F1中的第二特征图和第四特征图作为关键点权重估计模块的输入,得到图像的像素二分类结果,并借助空间坐标转换矩阵R将该像素二分类结果映射到特征融合后的关键点集合P1,得到特征融合后的前景关键点集合P2,并采用交叉熵损失函数计算其二分类损失值:
Figure FDA0003424943850000031
其中,N表示关键点的个数,
Figure FDA0003424943850000032
表示像素的类别预测概率值,yn表示像素的真实类别值;
(4f)将体素特征图集合V1中的第五体素特征图作为三维候选框估计模块的输入,得到三维候选框集合Brpn,并计算其三维候选框估计损失值Lrpn
(4g)将三维候选框集合Brpn和特征融合后的前景关键点集合P2作为输出层的输入,得到最终预测的三维目标框集合Bout,计算其三维目标框预测损失值Lrcnn,并计算总损失值Li
(4h)根据总损失值Li,采用反向传播的方法,更新网络参数ωi,得到第i次的目标检测模型Ti,ωi的更新公式如下:
Figure FDA0003424943850000041
其中,ω*表示ωi的更新结果,η表示L的学习率,
Figure FDA0003424943850000042
表示求导操作;
(4i)判断i≥I是否成立,若是,则得到训练好的三维目标检测模型T*,否则,令i=i+1,返回(4b)。
8.根据权利要求7所述的方法,其特征在于:所述(4f)中计算三维候选框估计损失值Lrpn,实现如下:
(4f1)采用交叉熵损失函数计算第m个三维候选框的类别损失值
Figure FDA0003424943850000043
Figure FDA0003424943850000044
其中,
Figure FDA0003424943850000045
表示第m个三维候选框的类别概率值,ym表示第m个三维候选框的真实类别值;
(4f2)采用
Figure FDA0003424943850000046
和smooth-L1损失函数计算三维候选框的总损失值Lrpn
Figure FDA0003424943850000047
其中,M表示所有三维候选框的个数,
Figure FDA0003424943850000048
表示第m个三维候选框的预测偏移量,
Figure FDA0003424943850000049
表示第m个三维候选框相对于真实目标框的偏移量,β表示权重超参数。
9.根据权利要求7所述的方法,其特征在于:所述(4g)中计算三维目标框预测损失值Lrcnn和总损失值Li,实现如下:
(4g1)采用交叉熵损失函数计算第k个预测的三维目标框的类别损失值
Figure FDA0003424943850000051
Figure FDA0003424943850000052
其中,
Figure FDA0003424943850000053
表示第k个预测的三维目标框的类别概率值,yk表示第k个预测的三维目标框的真实类别值;
(4g2)采用Liou和smooth-L1损失函数计算预测的三维目标框的总损失值Lrcnn
Figure FDA0003424943850000054
其中,K表示所有预测的三维目标框的个数,
Figure FDA0003424943850000055
表示第k个预测的三维目标框偏移量,
Figure FDA0003424943850000056
表示第k个预测的三维目标框相对于真实的三维目标框的偏移量;
(4g3)采用加权求和的方式计算三维目标检测模型的总损失值Li
Figure FDA0003424943850000057
其中,
Figure FDA0003424943850000058
表示Lrpn的权重超参数,γ表示Lseg的权重超参数。
CN202111574943.1A 2021-12-21 2021-12-21 基于多尺度异源特征自适应融合的三维目标检测方法 Pending CN114495089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111574943.1A CN114495089A (zh) 2021-12-21 2021-12-21 基于多尺度异源特征自适应融合的三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111574943.1A CN114495089A (zh) 2021-12-21 2021-12-21 基于多尺度异源特征自适应融合的三维目标检测方法

Publications (1)

Publication Number Publication Date
CN114495089A true CN114495089A (zh) 2022-05-13

Family

ID=81495039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111574943.1A Pending CN114495089A (zh) 2021-12-21 2021-12-21 基于多尺度异源特征自适应融合的三维目标检测方法

Country Status (1)

Country Link
CN (1) CN114495089A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN117523320A (zh) * 2024-01-03 2024-02-06 深圳金三立视频科技股份有限公司 一种基于关键点的图像分类模型训练方法及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN115965959B (zh) * 2023-01-10 2023-10-03 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN117523320A (zh) * 2024-01-03 2024-02-06 深圳金三立视频科技股份有限公司 一种基于关键点的图像分类模型训练方法及终端

Similar Documents

Publication Publication Date Title
CN109829399B (zh) 一种基于深度学习的车载道路场景点云自动分类方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN109118564B (zh) 一种基于融合体素的三维点云标记方法和装置
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108985238B (zh) 联合深度学习和语义概率的不透水面提取方法及系统
CN111242041B (zh) 基于伪图像技术的激光雷达三维目标快速检测方法
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112862774B (zh) 一种遥感影像建筑物精确分割方法
CN114495089A (zh) 基于多尺度异源特征自适应融合的三维目标检测方法
CN114724120B (zh) 基于雷视语义分割自适应融合的车辆目标检测方法及系统
CN108876805B (zh) 一种端对端无监督场景可通行区域认知与理解方法
CN113052106B (zh) 一种基于PSPNet网络的飞机起降跑道识别方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN112949407B (zh) 一种基于深度学习和点集优化的遥感影像建筑物矢量化方法
CN110619605B (zh) 并行气象要素降尺度方法、装置、电子设备及存储介质
CN115082674A (zh) 基于注意力机制的多模态数据融合三维目标检测方法
CN115049945B (zh) 一种基于无人机图像的小麦倒伏面积提取方法和装置
CN116453121B (zh) 一种车道线识别模型的训练方法及装置
CN112766136A (zh) 一种基于深度学习的空间车位检测方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN113743417A (zh) 语义分割方法和语义分割装置
CN114612883A (zh) 一种基于级联ssd和单目深度估计的前向车辆距离检测方法
CN113361528B (zh) 一种多尺度目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination