CN113221962B - 一种解耦分类与回归任务的三维点云单阶段目标检测方法 - Google Patents
一种解耦分类与回归任务的三维点云单阶段目标检测方法 Download PDFInfo
- Publication number
- CN113221962B CN113221962B CN202110428644.0A CN202110428644A CN113221962B CN 113221962 B CN113221962 B CN 113221962B CN 202110428644 A CN202110428644 A CN 202110428644A CN 113221962 B CN113221962 B CN 113221962B
- Authority
- CN
- China
- Prior art keywords
- prediction
- classification
- regression
- head
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种解耦分类与回归任务的三维点云单阶段目标检测方法,步骤包括:(1)对于点云进行体素化处理,使数据从无须的点云变成有序的栅格结构,(2)利用三维稀疏卷积进行网络的特征提取从而得到高阶特征图,(3)在特征图中,使用双头的检测器聚合特征并预测出目标的分类、回归框以及方向。本发明为了解决目标检测子任务之间的特征纠缠问题,设计了双头的检测网络结构,能够在高维特征中分别提取分类与回归任务各自关注的特征,分别预测子任务。并且在解耦的基础上,利用联合检测的方法,将两个任务中相关信息相结合,共同预测目标类别。本发明提升了三维目标检测的准确率,并可以很容易的迁移到其他方法中。
Description
技术领域
本发明涉及一种解耦分类与回归任务的三维点云单阶段目标检测方法,属于计算机视觉三维点云处理领域。
背景技术
物体检测是计算机视觉领域中二维和三维空间的基础工作之一。准确的目标检测结果是跟踪等任务的前序,在智能交通、室内智能家居等应用中至关重要。根据网络构造结构,目标检测框架分为一阶段结构和两阶段结构。一阶段结构能够直接检测物体,而两级结构则增加了一个能够聚合整个物体完整局部特征的网络,从而用更多的时间以及计算资源换取更高的精度。
目标检测通常包括两个子任务:分类和回归。在二维检测网络中,大多数方法的分类和回归任务都共用一个检测,因此这两个任务被迫共用大部分参数值。这将导致一些准确性的损失,这在3D对象检测任务中也会发生。IoU-Net首先讨论了两个任务之间会产生冲突的事实,并提出了一个单独的IoU预测头来提高回归任务的精度,3D检测方法STD中也采用了类似的结构。但是,这些改进的多头结构多用于两阶段检测框架的细化部分。对于单阶段检测方法来说,没有第二阶段对预测结果进行细化,所以两个任务的特征纠缠得比较紧密。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种使用两个头来共同预测目标类别的扩展结构的解耦分类与回归任务的三维点云单阶段目标检测方法,在解耦的同时,充分利用其相关信息。
为解决上述技术问题,本发明的一种解耦分类与回归任务的三维点云单阶段目标检测方法,包括以下步骤:
步骤1:输入整个场景的点云数据,利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构;
步骤2:在体素化后的规则数据上采用三维稀疏卷积网络进行特征提取,缩小特征尺寸并得到高阶特征,将最终的高阶三维特征图使用维度相连的方式融合z轴方向的信息,使用得到的二维鸟瞰图特征进行最终的结果预测;
步骤3:在特征提取后的场景鸟瞰图高阶特征中,分类与回归两个子任务分别使用两个平行的特征提取头来进行信息提取,得到分类信息与回归信息,使得鸟瞰图中每个超像素点都获得相应的分类预测和边框预测,其中角度预测包含于边框预测中,与边框的预测共享一个特征提取头,分类特征头只预测类别结果回归头同时预测类别结果和边框结果;
步骤4:执行训练阶段:使用联合预测方式,在回归头中提取类别信息,并最终将此类别预测与分类头得到的类别预测结合共同确认区域建议框的类别,构造联合损失函数:
其中,是分类预测头的分类损失,是回归预测头的分类损失,是回归损失,Ldir表示方向的损失,α,β,γ是设定的调节分类损失、回归损失和方向损失所占比例的参数,λ是设定的调节分类预测头和回归预测头损失比例的参数;
预测结果包括分类预测分数scls和边框预测,预测结果与数据的标签做对比,通过损失函数计算两者之间的差距,通过计算损失函数梯度对网络参数进行学习优化,得到训练后的网络参数;
步骤5:执行应用阶段:将最终的预测分数进行排序,其中高于给定阈值的预测为最终结果,最终的预测结果为对应的预测框的结果,即预测到目标的位置与大小。
本发明还包括:
步骤5中最终的预测分数具体为:
发明的有益效果:本发明提出了一种基于单级检测结构的解耦头,将两个头直接应用在高层特征图上,同时利用卷积神经网络对局部信息进行聚合,不同的卷积网络参数可以使两个头关注不同的特征,即分类任务更关注对象的突出特征,而回归任务更关注对象的边缘信息。在高级特征图上进行特征聚合,可以在不增加过多计算量的情况下,最大限度地提取可区分的特征。与分类特征对回归特征的抑制不同,回归特征也在一定程度上对预测得分有贡献。
解决分类与回归两个子任务特征的冲突纠缠,使用两个平行的预测头对两个子任务进行分别预测,能够使两个特征更专注于子任务的贡献;同时利用其原有的纠缠性,使用联合预测的方式,从两个检测头中同时预测物体类别,从不同特征贡献层面聚合互补,以得到更好的预测准确率。本发明的基于单级检测方法的解耦头结构,分别用于回归和分类任务,从而更改好的提取更关注于各自子任务的特征。本发明的一种扩展的联合策略,让专注于不同特征的两个预测头同时描述物体类别,来更好地表达物体的分类。本发明能够提升三维目标检测在车辆的检测中的准确率。
附图说明
图1是本发明方法流程示意图;
图2是使用解耦预测头进行结果预测;
图3是双头联合预测。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步说明。
本发明改进了传统的单阶段检测区域建议网络,可以用于提升通用的目标检测问题的效果。主要的步骤有:(1)对于点云进行体素化处理,使数据从无须的点云变成有序的栅格结构,(2)利用三维稀疏卷积进行网络的特征提取从而得到高阶特征图,(3)在特征图中,使用双头的检测器聚合特征并预测出目标的分类、回归框以及方向。本发明为了解决目标检测子任务之间的特征纠缠问题,设计了双头的检测网络结构,能够在高维特征中分别提取分类与回归任务各自关注的特征,分别预测子任务。并且在解耦的基础上,利用联合检测的方法,将两个任务中相关信息相结合,共同预测目标类别。本发明提升了三维目标检测的准确率,并可以很容易的迁移到其他方法中。
本发明涉及解耦的区域建议网络的三维单阶段目标检测方法。首先,利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构,以便于局部特征的提取,另外用稠密的网格进行体素化能够一定程度的实现降采样效果,减小计算量。
其次,在体素化后的规则数据上进行特征提取。由于传统的二维卷积网络直接应用到三维会带来较大的计算损耗,而规则化的点云仍保留其数据的稀疏性,故使用稀疏卷积进行速度的提升。由于场景中的目标高度趋于一致,故预测目标框的长宽是区别较大的信息,在本发明中,最终的高阶特征图融合了z轴方向的信息,使用鸟瞰图特征进行最终的结果区域框提取。
再次,在特征提取后的场景鸟瞰图高阶特征中,对应分类与回归两个子任务使用两个平行的特征提取头来进行信息提取,使得每个超像素点都获得相应的区域建议分类与框。由于单阶段目标检测任务的单向性,两个子任务的信息纠缠较为严重,使用两组特征提取网络可以一定程度的解耦任务,获得更有针对性的预测信息。其中角度预测与框的预测共享一个特征提取头。
最后,在经过解耦头得到分类信息与回归信息后,考虑到回归信息关注的物体边缘信息对分类任务也有一定程度的贡献,在本发明中使用联合的预测方式,在回归头中使用小的系数提取类别信息,并在最终将此类别预测与分类头得到的类别预测结合,共同确认区域建议框的类别。
结合图1和图3,本发明具体包括以下步骤:
步骤一:输入整个场景的点云数据,利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构,以便于局部特征的提取,另外用稠密的网格进行体素化能够一定程度的实现降采样效果,减小计算量。
步骤二:在体素化后的规则数据上进行特征提取,输入体素信息,使用三维稀疏卷积方法进行处理,从而缩小特征尺寸并得到高阶特征。由于传统的二维卷积网络直接应用到三维会带来较大的计算损耗,而规则化的点云仍保留其数据的稀疏性,故使用稀疏卷积进行速度的提升。由于场景中的目标高度趋于一致,故预测目标框的长宽是区别较大的信息,在本发明中,将最终的高阶三维特征图使用维度相连的方式融合z轴方向的信息,使用得到的二维鸟瞰图特征进行最终的结果预测。
步骤三:在特征提取后的场景鸟瞰图高阶特征中,对应分类与回归两个子任务使用两个平行的特征提取头来进行信息提取,使得鸟瞰图中每个超像素点都获得相应的分类预测和边框预测。由于单阶段目标检测任务的单向性,两个子任务的信息纠缠较为严重,使用两组特征提取网络可以一定程度的解耦任务,获得更有针对性的预测信息。
方法的预测结果由分类预测分数scls和边框预测共同组成。本发明为深度学习方法,分为训练阶段与应用阶段。在训练阶段中,预测结果与数据的标签做对比,即通过损失函数计算两者之间的差距,通过计算损失函数梯度对网络参数进行学习优化,经过不断优化后的网络参数为应用阶段使用的参数。在应用阶段,此步骤的预测结果经过筛选后得到最终结果。
步骤四:在训练阶段,我们提出了一个联合的损失函数构成。在经过解耦头得到分类信息与回归信息后,考虑到回归信息关注的物体边缘信息对分类任务也有一定程度的贡献,在本发明中使用联合的预测方式,在回归头中使用小的系数提取类别信息,并在最终将此类别预测与分类头得到的类别预测结合,共同确认区域建议框的类别。
在训练阶段,对于单头和双头架构,将该端到端网络的损耗函数定义为:
Ltotal=αLcls+βLreg+γLdir
其中Lcls表示分类的损失,Lreg表示回归的损失,Ldir表示方向的损失。回归值和方向值共同构成了边框的预测。而α,β,γ则是这些组成的系数为经验设定参数。当使用联合预测时,本发明将损失函数定义为:
其中是分类预测头的分类损失,和是回归预测头的分类和回归的损失。而λ则是平衡两个分类损失的系数。特别是当λ=1时,它是一个普通的非联合双头结构预测函数。相应地,最终的分类预测得分也是由两个预测头的预测结果共同表示的。
步骤五:在应用的阶段,将预测结果根据最终的预测分数scls进行筛选从而得到最终输出。将最终的预测分数scls进行排序,其中高于阈值0.3的预测为最终结果,最终的预测结果为对应的预测框,即预测到目标的位置与大小。最终的预测分数也是根据损失函数设置的系数来设置的:
Claims (2)
1.一种解耦分类与回归任务的三维点云单阶段目标检测方法,其特征在于:包括以下步骤:
步骤1:输入整个场景的点云数据,利用体素化方式将三维点云从无序的点集转化为规则的三维矩阵结构;
步骤2:在体素化后的规则数据上采用三维稀疏卷积网络进行特征提取,缩小特征尺寸并得到高阶特征,将最终的高阶三维特征图使用维度相连的方式融合z轴方向的信息,使用得到的二维鸟瞰图特征进行最终的结果预测;
步骤3:在特征提取后的场景鸟瞰图高阶特征中,分类与回归两个子任务分别使用两个平行的特征提取头来进行信息提取,得到分类信息与回归信息,使得鸟瞰图中每个超像素点都获得相应的分类预测和边框预测,其中角度预测包含于边框预测中,与边框的预测共享一个特征提取头,分类特征头只预测类别结果回归头同时预测类别结果和边框结果;
步骤4:执行训练阶段:使用联合预测方式,在回归头中提取类别信息,并最终将此类别预测与分类头得到的类别预测结合共同确认区域建议框的类别,构造联合损失函数:
其中,是分类预测头的分类损失,是回归预测头的分类损失,是回归损失,Ldir表示方向的损失,α,β,γ是设定的调节分类损失、回归损失和方向损失所占比例的参数,λ是设定的调节分类预测头和回归预测头损失比例的参数;
预测结果包括分类预测分数scls和边框预测,预测结果与数据的标签做对比,通过损失函数计算两者之间的差距,通过计算损失函数梯度对网络参数进行学习优化,得到训练后的网络参数;
步骤5:执行应用阶段:将最终的预测分数进行排序,其中高于给定阈值的预测为最终结果,最终的预测结果为对应的预测框的结果,即预测到目标的位置与大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428644.0A CN113221962B (zh) | 2021-04-21 | 2021-04-21 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428644.0A CN113221962B (zh) | 2021-04-21 | 2021-04-21 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221962A CN113221962A (zh) | 2021-08-06 |
CN113221962B true CN113221962B (zh) | 2022-06-21 |
Family
ID=77088397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110428644.0A Active CN113221962B (zh) | 2021-04-21 | 2021-04-21 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221962B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657246B (zh) * | 2021-08-13 | 2023-11-21 | 哈尔滨工程大学 | 一种基于自监督学习的三维点云二阶段目标检测方法 |
CN113887538B (zh) * | 2021-11-30 | 2022-03-25 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
CN114022558B (zh) * | 2022-01-05 | 2022-08-26 | 深圳思谋信息科技有限公司 | 图像定位方法、装置、计算机设备和存储介质 |
CN116664624B (zh) * | 2023-06-01 | 2023-10-27 | 中国石油大学(华东) | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980895A (zh) * | 2017-02-22 | 2017-07-25 | 中国科学院自动化研究所 | 基于旋转区域的卷积神经网络预测方法 |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN109597087A (zh) * | 2018-11-15 | 2019-04-09 | 天津大学 | 一种基于点云数据的3d目标检测方法 |
CN110046530A (zh) * | 2019-03-15 | 2019-07-23 | 中科院微电子研究所昆山分所 | 一种基于多任务目标检测的条形码倾斜矫正方法 |
WO2020109016A1 (de) * | 2018-11-26 | 2020-06-04 | Osram Gmbh | Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten |
CN111583337A (zh) * | 2020-04-25 | 2020-08-25 | 华南理工大学 | 一种基于多传感器融合的全方位障碍物检测方法 |
CN111832655A (zh) * | 2020-07-16 | 2020-10-27 | 四川大学 | 一种基于特征金字塔网络的多尺度三维目标检测方法 |
CN112561966A (zh) * | 2020-12-22 | 2021-03-26 | 清华大学 | 一种融合时空信息的稀疏点云多目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
-
2021
- 2021-04-21 CN CN202110428644.0A patent/CN113221962B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980895A (zh) * | 2017-02-22 | 2017-07-25 | 中国科学院自动化研究所 | 基于旋转区域的卷积神经网络预测方法 |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN109597087A (zh) * | 2018-11-15 | 2019-04-09 | 天津大学 | 一种基于点云数据的3d目标检测方法 |
WO2020109016A1 (de) * | 2018-11-26 | 2020-06-04 | Osram Gmbh | Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten |
CN110046530A (zh) * | 2019-03-15 | 2019-07-23 | 中科院微电子研究所昆山分所 | 一种基于多任务目标检测的条形码倾斜矫正方法 |
CN111583337A (zh) * | 2020-04-25 | 2020-08-25 | 华南理工大学 | 一种基于多传感器融合的全方位障碍物检测方法 |
CN111832655A (zh) * | 2020-07-16 | 2020-10-27 | 四川大学 | 一种基于特征金字塔网络的多尺度三维目标检测方法 |
CN112561966A (zh) * | 2020-12-22 | 2021-03-26 | 清华大学 | 一种融合时空信息的稀疏点云多目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds;Martin Simon等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)》;20200409;第1190-1199页 * |
基于YOLOv2-Tiny的环视实时车位线识别算法;何俏君等;《汽车电器》;20200920;第1-5页 * |
融合优选图案的深度学习目标识别及定位技术;王立鹏等;《哈尔滨工程大学学报》;20200405;第549-555页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221962A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221962B (zh) | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 | |
CN110175671B (zh) | 神经网络的构建方法、图像处理方法及装置 | |
Zhu et al. | Class-balanced grouping and sampling for point cloud 3d object detection | |
CN111967305B (zh) | 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN111489358A (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
Liu et al. | TSingNet: Scale-aware and context-rich feature learning for traffic sign detection and recognition in the wild | |
CN110110599B (zh) | 一种基于多尺度特征融合的遥感图像目标检测方法 | |
CN112949673A (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
EP4170548A1 (en) | Method and device for constructing neural network | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
CN112598635A (zh) | 一种基于对称点生成的点云3d目标检测方法 | |
CN113642571B (zh) | 一种基于显著性注意力机制的细粒度图像识别方法 | |
Sharma et al. | Vehicle identification using modified region based convolution network for intelligent transportation system | |
CN115424223A (zh) | 图神经网络训练方法、点云特征提取方法、设备及介质 | |
CN115439766A (zh) | 一种基于改进yolov5的无人机目标检测方法 | |
CN115545166A (zh) | 一种改进的ConvNeXt卷积神经网络及其遥感图像的分类方法 | |
CN115143950A (zh) | 一种智能汽车局部语义栅格地图生成方法 | |
CN115797635A (zh) | 一种基于并行特征补全的多阶段实例分割方法及系统 | |
CN115797629A (zh) | 基于检测增强和多阶段边界框特征细化的实例分割方法 | |
CN115294355A (zh) | 一种空间感知增强的单阶段无锚框三维目标检测方法及系统 | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN114821341A (zh) | 基于fpn与pan网络的双重注意力的遥感小目标检测方法 | |
Lu et al. | Feature pyramid-based graph convolutional neural network for graph classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |