CN113095172A - 一种基于深度学习的点云三维物体检测方法 - Google Patents
一种基于深度学习的点云三维物体检测方法 Download PDFInfo
- Publication number
- CN113095172A CN113095172A CN202110334132.8A CN202110334132A CN113095172A CN 113095172 A CN113095172 A CN 113095172A CN 202110334132 A CN202110334132 A CN 202110334132A CN 113095172 A CN113095172 A CN 113095172A
- Authority
- CN
- China
- Prior art keywords
- voxel
- point cloud
- dimensional object
- module
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的点云三维物体检测方法,包括:通过分层体素编码模块提取点云场景中点稀疏、点密集区域中非空体素的特征表示;通过注意力模块融合组合的体素特征以有效的获得体素的特征表示点云场景;通过高度信息补充模块引入点云BEV图以补偿体素特征图高度信息;通过通道注意力模块提取掩模处理后的特征图中有用的信息以提高几何结构感知能力;构建一特征学习网络用于挖掘特征图中的高级语义特征,在输出端增加了一个体素分割任务来判断非空的体素是否属于目标物体,并基于多任务检测头,设计了一个总体的损失约束网络;将训练后的损失约束网络用于三维物体的检测任务。
Description
技术领域
本发明涉及三维物体检测领域,尤其涉及一种基于深度学习的点云三维物体检测方法。
背景技术
三维物体检测旨在定位和识别三维场景中的物体,在智能驾驶、虚拟现实、机器人等领域有着广泛的应用。点云是三维物体检测中的一种常见的数据形式,可以精确地描述真实场景中三维物体的周围环境。然而,点云具有稀疏、无序且不规则的特点。因此,如何有效地处理点云数据、实现精确地三维物体检测是计算机视觉领域中一个热门研究方向。
得益于计算机视觉领域的快速发展,近年来提出了许多基于点云的三维物体检测方法。基于点云鸟瞰图的检测方法能够借助二维物体检测器中的特征提取模块实现快速的物体检测,但未能很好地解决鸟瞰图中存在的点云数据几何信息丢失的情况。基于点的检测方法能有效的挖掘点云数据的几何结构信息,然而这类方法通过点云特征提取网络提取点云的点级特征表示,计算复杂度较高,难以达到实时检测的要求。
基于体素的检测方法在检测性能和检测速度上达到了较好的平衡,可以有效地提取点云数据的几何结构信息且实时地检测点云场景中的物体。Lang等人提出了一种柱体体素的检测方法,该方法将点云划分为柱体体素,并将学习到的离散体素的特征直接转成图像特征表示,实现了高效的三维物体检测。Liu等人提出了点级注意力、通道级注意力、体素级注意力组成的模块以提取柱体体素特征,从而增强物体的关键信息,提高体素特征的鲁棒性。
然而,上述检测方法没有考虑到点云的不均匀分布特点对体素特征提取的影响,不能同时有效地提取点稀疏和点密集区域体素的特征表示。此外,柱体体素的检测方法在高度轴上没有对点云划分,虽然能够较快地检测物体,但难以有效获得点云场景丰富的特征表示。
发明内容
为了进一步探索基于体素的三维物体检测,提取不均匀分布的点云场景丰富的特征表示,本发明提出了一种基于深度学习的点云三维物体检测方法,其利用分层体素编码模块有效提取体素的特征,并设计了高度信息补充模块增强体素特征图的高度信息,从而提高基于体素的三维物体检测方法的检测性能,详见下文描述:
一种基于深度学习的点云三维物体检测方法,所述方法包括:
通过分层体素编码模块提取点云场景中点稀疏、点密集区域中非空体素的特征表示;
通过注意力模块融合组合的体素特征以有效的获得体素的特征表示点云场景;
通过高度信息补充模块引入点云BEV图以补偿体素特征图高度信息;
通过通道注意力模块提取掩模处理后的特征图中有用信息以提高几何结构感知能力;
构建一特征学习网络用于挖掘特征图中的高级语义特征,在输出端增加了一个体素分割任务来判断非空的体素是否属于目标物体,并基于多任务检测头,设计了一个总体的损失约束网络;
将训练后的损失约束网络用于三维物体的检测任务。
所述分层体素编码模块为:
其中,所述注意力模块为:
所述高度信息补充模块为:
利用由卷积组成的卷积块分别提取体素特征图和点云BEV图的特征,以通道级联的方式融合特征,并经掩模处理:
本发明提供的技术方案的有益效果是:
1、本发明充分挖掘了点云的几何结构信息,从不均匀分布的点云场景中有效地提取体素特征有利于挖掘点云数据的几何结构信息,有效地感知和检测三维物体,并达到了实时检测的目的;
2、考虑到点云分布的不均匀性,本发明提出分层体素编码模块,有效地提取了点稀疏、点密集区域中非空体素的特征表示;
3、为了增强体素级特征的高度信息,本发明设计了一种简单有效的高度信息补充模块,通过引入点云的BEV图(鸟瞰图)进行特征补充,并通过通道注意力模块有效地挖掘了点云场景的结构信息,从而提高三维物体的检测性能。
附图说明
图1为一种基于深度学习的点云三维物体检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种基于深度学习的点云三维物体检测方法,参见图1,该方法包括以下步骤:
一、设计分层体素编码模块
为了有效地提取点云场景中点稀疏、点密集区域中非空体素(本领域公知的技术术语,在此不做赘述)的特征表示,设计了分层体素编码模块。首先,将给定的点云场景P划分为两种尺度大小的柱体体素和其中,v表示体素,i和j表示尺度索引,k和t表示第k和第t个体素,体素和体素的长、宽、高分别表示为wi、li、hi和wj、lj、hj。尺度i体素的宽和长的大小为尺度j体素的宽和长的两倍,两种尺度体素的高度均等于点云场景的高度。然后,分别提取两种尺度体素的特征表示。
采用相同的特征提取器独立的提取两种尺度非空体素(non-empty voxel或nonempty voxel)的特征。特征提取器利用多层感知器提取非空体素内每个点的特征,以获得更高维度的点级特征,并采用非线性激活函数和最大池化得到非空体素特征的特征表示。
其中,和分别表示体素和内的点集,mlp表示多层感知器,σ表示非线性激活,Maxp表示元素级最大池化,Ni为尺度i体素中点的个数,Nj为尺度j体素中点的个数,c为点的特征维度。和为体素和的特征表示,C为体素特征的维度。
其中,由于尺度i的体素长、宽是尺度j的体素长、宽的两倍。所以1个尺度i体素可以由4个尺度j体素表示。
其中,[.]表示级联操作,旨在以通道连接的方式融合和的特征。ψ表示全连接层,用来提取组合的体素特征以获得与相同的感受野范围。表示的是注意力模块和元素级最大池化的组合操作。Fk表示分层体素编码模块输出的体素特征。
注意力模块Att公式如下:
二、设计高度信息补充模块
获得点云的体素特征表示后,根据体素划分时相应的索引,将离散体素的特征Fk分散回相应的点云空间位置,以得到点云的体素特征图表示。为了补充Fv损失的高度信息,设计了高度信息补充模块,以更好地感知三维场景中的物体。
首先,采用基于点云鸟瞰图检测方法中映射点云的相同操作以得到点云的BEV图。点云的BEV图很好地保留了点云的高度信息,有效从而增强柱体体素的特征图结构特征。然后,利用由4个3×3大小的卷积组成的卷积块分别提取体素特征图和点云BEV图的特征Fv和Fb。以通道级联的方式融合Fv和Fb,融合的特征图表示为FS。考虑到点云的稀疏性,FS经过掩模处理:
其中,Ca表示通道注意力模块,注意力计算公式为:
Ca(.)=σ[mlp(Maxp(.))+mlp(Avgp(.))] (7)
其中,Maxp和Avgp分别表示元素级最大池化和平均池化,mlp为多层感知器,非线性激活函数σ被用来计算特征图的通道注意力值。通过通道注意力,有效地挖掘了融合特征图中的有效信息,增强了结构信息。
三、构建高级语义特征学习网络
为了进一步挖掘特征图中的高级语义特征,构建了一个特征学习网络。该网络包含两个卷积块,每个卷积块由6个3×3卷积组成,且第一个卷积的步长设置为2(步长的数值可以根据实际应用中的需要设定,本发明实施例对此不做赘述),以降低特征图的分辨率,从而获得更大感受野范围的特征。高级语义特征学习网络输入为自底向上学习不同分辨率的特征,然后自顶向下逐步融合各分辨率的特征图,特征提取过程如公式所示:
四、设计多任务检测头
三维检测任务的目的是输出带朝向角的三维框,以及三维框对应的物体类别。为了更好地学习点云空间的特征表示,本发明实施例在网络的输出端增加了一个体素分割任务(本领域技术人员所公知)来判断非空的体素是否属于目标物体,从而使学到的体素特征具有判别性。
基于多任务检测头,设计了一个总体的损失约束网络,公式如下:
其中,为正样本的个数,为前景非空体素个数,β0、β1、β2、β3的权重分别设置为1、2、0.2、1,Lc为分类损失,Ll为回归损失,Ld为方向损失,Ls为体素分割损失。表示正样本(也就是positive anchor)的个数。同理表示前景非空体素的个数,因此p、a、v和f没有单独的含义。
五、训练检测网络
本发明提出的基于深度学习的点云三维物体检测方法包括分层体素编码模块、高度信息补充模块、高级语义特征学习网络和多任务检测头。网络输入点云数据,通过约束多任务损失端到端的训练整体网络,直至收敛。
六、三维物体检测
检测网络训练完成后即可用于三维物体的检测任务。检测时,首先输入传感器获得的点云,通过提出的网络进行处理,网络输出三维检测框以及相应的物体得分。然后,利用非极大值抑制(Non-Maximum Suppression,NMS)过滤掉冗余的三维检测框,保留的三维检测框即为点云中检测到的三维物体。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度学习的点云三维物体检测方法,其特征在于,所述方法包括:
通过分层体素编码模块提取点云场景中点稀疏、点密集区域中非空体素的特征表示;
通过注意力模块融合组合的体素特征以有效的获得体素的特征表示点云场景;
通过高度信息补充模块引入点云BEV图以补偿体素特征图高度信息;
通过通道注意力模块提取掩模处理后的特征图中有用信息以提高几何结构感知能力;
构建一特征学习网络用于挖掘特征图中的高级语义特征,在输出端增加了一个体素分割任务来判断非空的体素是否属于目标物体,并基于多任务检测头,设计了一个总体的损失约束网络;
将训练后的损失约束网络用于三维物体的检测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334132.8A CN113095172B (zh) | 2021-03-29 | 2021-03-29 | 一种基于深度学习的点云三维物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334132.8A CN113095172B (zh) | 2021-03-29 | 2021-03-29 | 一种基于深度学习的点云三维物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095172A true CN113095172A (zh) | 2021-07-09 |
CN113095172B CN113095172B (zh) | 2022-08-05 |
Family
ID=76670423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110334132.8A Active CN113095172B (zh) | 2021-03-29 | 2021-03-29 | 一种基于深度学习的点云三维物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095172B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657522A (zh) * | 2021-08-23 | 2021-11-16 | 天津大学 | 一种多视图三维模型聚类方法 |
CN113688700A (zh) * | 2021-08-10 | 2021-11-23 | 复旦大学 | 基于分层注意力采样策略的真实域三维点云物体识别算法 |
CN114055781A (zh) * | 2021-10-24 | 2022-02-18 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114140765A (zh) * | 2021-11-12 | 2022-03-04 | 北京航空航天大学 | 一种障碍物感知方法、装置及存储介质 |
CN114627183A (zh) * | 2022-02-25 | 2022-06-14 | 浙江零跑科技股份有限公司 | 一种激光点云3d目标检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170347120A1 (en) * | 2016-05-28 | 2017-11-30 | Microsoft Technology Licensing, Llc | Motion-compensated compression of dynamic voxelized point clouds |
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
CN111340935A (zh) * | 2020-01-23 | 2020-06-26 | 北京市商汤科技开发有限公司 | 点云数据处理方法、智能行驶方法及相关装置、电子设备 |
CN111402405A (zh) * | 2020-03-23 | 2020-07-10 | 北京工业大学 | 一种基于注意力机制的多视角图像三维重建方法 |
CN111681212A (zh) * | 2020-05-21 | 2020-09-18 | 中山大学 | 一种基于激光雷达点云数据的三维目标检测方法 |
CN112052860A (zh) * | 2020-09-11 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种三维目标检测方法及系统 |
CN112184840A (zh) * | 2020-09-22 | 2021-01-05 | 上海交通大学 | 基于多尺度结构化字典学习的3d点云压缩系统 |
CN112347987A (zh) * | 2020-11-30 | 2021-02-09 | 江南大学 | 一种多模数据融合的三维目标检测方法 |
CN112396068A (zh) * | 2021-01-19 | 2021-02-23 | 苏州挚途科技有限公司 | 点云数据的处理方法、装置及电子设备 |
-
2021
- 2021-03-29 CN CN202110334132.8A patent/CN113095172B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170347120A1 (en) * | 2016-05-28 | 2017-11-30 | Microsoft Technology Licensing, Llc | Motion-compensated compression of dynamic voxelized point clouds |
CN110879994A (zh) * | 2019-12-02 | 2020-03-13 | 中国科学院自动化研究所 | 基于形状注意力机制的三维目测检测方法、系统、装置 |
CN111340935A (zh) * | 2020-01-23 | 2020-06-26 | 北京市商汤科技开发有限公司 | 点云数据处理方法、智能行驶方法及相关装置、电子设备 |
CN111402405A (zh) * | 2020-03-23 | 2020-07-10 | 北京工业大学 | 一种基于注意力机制的多视角图像三维重建方法 |
CN111681212A (zh) * | 2020-05-21 | 2020-09-18 | 中山大学 | 一种基于激光雷达点云数据的三维目标检测方法 |
CN112052860A (zh) * | 2020-09-11 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种三维目标检测方法及系统 |
CN112184840A (zh) * | 2020-09-22 | 2021-01-05 | 上海交通大学 | 基于多尺度结构化字典学习的3d点云压缩系统 |
CN112347987A (zh) * | 2020-11-30 | 2021-02-09 | 江南大学 | 一种多模数据融合的三维目标检测方法 |
CN112396068A (zh) * | 2021-01-19 | 2021-02-23 | 苏州挚途科技有限公司 | 点云数据的处理方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
BO PENG, ZENGRUI YU, JIANJUN LEI, JIAHUI SONG: "Attention-Guided Fusion Network of Point Cloud and Multiple Views for 3D Shape Recognition", 《THE 2020 IEEE INTERNATIONAL CONFERENCE ON VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP)》 * |
ZHIHAO CUI,ZHENHUA ZHANG: "PVF-NET: Point & Voxel Fusion 3D Object Detection Framework for Point Cloud", 《 2020 17TH CONFERENCE ON COMPUTER AND ROBOT VISION (CRV)》 * |
邵磊,董广军: "结合多尺度体素与高阶条件随机场的点云分类", 《计算机辅助设计与图形学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688700A (zh) * | 2021-08-10 | 2021-11-23 | 复旦大学 | 基于分层注意力采样策略的真实域三维点云物体识别算法 |
CN113688700B (zh) * | 2021-08-10 | 2024-04-26 | 复旦大学 | 基于分层注意力采样策略的真实域三维点云物体识别方法 |
CN113657522A (zh) * | 2021-08-23 | 2021-11-16 | 天津大学 | 一种多视图三维模型聚类方法 |
CN113657522B (zh) * | 2021-08-23 | 2023-11-24 | 天津大学 | 一种多视图三维模型聚类方法 |
CN114055781A (zh) * | 2021-10-24 | 2022-02-18 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114055781B (zh) * | 2021-10-24 | 2023-12-29 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114140765A (zh) * | 2021-11-12 | 2022-03-04 | 北京航空航天大学 | 一种障碍物感知方法、装置及存储介质 |
CN114140765B (zh) * | 2021-11-12 | 2022-06-24 | 北京航空航天大学 | 一种障碍物感知方法、装置及存储介质 |
CN114627183A (zh) * | 2022-02-25 | 2022-06-14 | 浙江零跑科技股份有限公司 | 一种激光点云3d目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113095172B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095172B (zh) | 一种基于深度学习的点云三维物体检测方法 | |
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN111832655B (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
Yang et al. | A multi-task Faster R-CNN method for 3D vehicle detection based on a single image | |
CN113936139A (zh) | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 | |
CN110009648A (zh) | 基于深浅特征融合卷积神经网络的路侧图像车辆分割方法 | |
Zhang et al. | A semi-supervised 3D object detection method for autonomous driving | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN113095152A (zh) | 一种基于回归的车道线检测方法及系统 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN112288667A (zh) | 一种基于激光雷达与摄像头融合的三维目标检测方法 | |
Li et al. | An aerial image segmentation approach based on enhanced multi-scale convolutional neural network | |
Liu et al. | CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection | |
Li et al. | Deep learning based monocular depth prediction: Datasets, methods and applications | |
Khan et al. | Lrdnet: lightweight lidar aided cascaded feature pools for free road space detection | |
CN107609465A (zh) | 一种用于人脸检测的多尺度检测方法 | |
CN117115690A (zh) | 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及系统 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN114820931B (zh) | 基于虚拟现实的智慧城市cim可视化实时成像方法 | |
Yang et al. | A feature extraction technique in stereo matching network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |