CN117475428A - 一种三维目标检测方法、系统及设备 - Google Patents
一种三维目标检测方法、系统及设备 Download PDFInfo
- Publication number
- CN117475428A CN117475428A CN202311480485.4A CN202311480485A CN117475428A CN 117475428 A CN117475428 A CN 117475428A CN 202311480485 A CN202311480485 A CN 202311480485A CN 117475428 A CN117475428 A CN 117475428A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- dimensional
- cloud data
- voxels
- laser radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 32
- 238000000280 densification Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 11
- 238000012512 characterization method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本发明提供了一种三维目标检测方法、系统及设备,涉及计算机视觉领域,该方法包括:获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理;基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云;基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;根据所述立柱特征进行三维目标检测任务。本发明能够最大程度保留有效点云信息,提高网络检测精度。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及一种三维目标检测方法、系统及设备。
背景技术
近年来,随着人工智能技术的快速发展,传统的汽车行业与信息产业紧密结合,自动驾驶行业取得了巨大的进步。而自动驾驶的实现流程主要包括感知阶段、决策阶段和控制阶段,其中感知阶段输出的信息是进行可靠决策和精准控制的前提。所以作为感知的关键,目标检测得到了广泛的研究。但是早期基于平面图像进行的检测无法得到目标物的三维信息,不适应于目标密集,分布不规律的现实环境。因此为了自动驾驶系统在复杂的现实场景下仍能做出准确的驾驶决策和控制操作,保障自动驾驶的安全与可靠,三维目标检测成为了自动驾驶中的研究热点云。目前常见的三维目标检测网络按输入可以分为基于图像的三维目标检测网络,基于点云的三维目标检测网络和基于多模态的三维目标检测网络。其中,由于深度信息的缺失,基于图像的三维目标检测网络精度较低,难以满足实际自动驾驶场景的要求;此外,基于多模态的三维目标检测网络处理速度较慢,难以满足自动驾驶汽车的实时性要求。
而点云作为一种高精度的三维信息,近几年被该领域研究者广泛使用。基于点云的三维目标检测网络可分为两类:一类为基于点云表征的三维目标检测网络,此网络直接对点云进行处理,代表网络包括Point-GNN、3DSSD等;另一类为基于体素表征的三维目标检测网络,此网络首先对点云进行采样,然后将点云体素化,最后对体素进行特征提取,代表网络包括VoxelNet、SECOND等。基于点云表征的三维目标检测网络相比于体素表征准确率较高,但是点云中的点云数量庞大导致计算速度较慢;基于体素表征的三维目标检测网络的速度较快,但是由于在体素特征提取的过程中存在点云信息丢失,测量精度较低。
不同于上述基于体素表征的方法,PointPillars采用不同的体素表征方式,将点云立柱化后转成伪图像,在保留点云三维特征的同时采用二维的深度学习特征提取骨干网络,采用立柱表征进行特征提取,虽然极大的加快了PointPillars的运行速度,但是在立柱化过程中,会不可避免的损失点云信息,导致了此网络检测精度较低,并且对于目标方向的判断存在较大误差,在保留立柱化操作的前提下,无法有效保留点云信息。如何采用合适的技术有效地保留有效点云信息是自动驾驶领域急需解决的一个重要问题。
发明内容
本发明的目的是提供一种三维目标检测方法、系统及设备,以解决网络检测精度低,无法有效保留点云信息的问题。
为实现上述目的,本发明提供了如下方案:
一种三维目标检测方法,包括:
获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理;
基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云;
基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;
利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;
根据所述立柱特征进行三维目标检测任务。
可选的,获取三维目标的检测范围内环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理,具体包括:
以车载三维激光雷达为坐标原点云,限定所述点云空间在深度、宽度和高度维度上的范围;
利用所述车载三维激光雷达对三维目标的检测范围内的环境进行扫描,获取所述环境的三维激光雷达点云数据并对所述三维激光雷达点云数据进行坐标转换;
删除限定的点云空间的范围以外的坐标转换后的三维激光雷达点云数据,确定处理后的点云数据。
可选的,基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云,具体包括:
计算所述处理后的点云数据中每个点云的深度;
根据每个点云的高度以及深度将所述点云空间划分为近处空中区域以及剩余区域;
在确定邻域和核心对象参数的情况下,基于DBSCAN的点云采样方法筛选所述近处空中区域内的处理后的点云数据中的冗余点云,并删除所述冗余点云;
对所述剩余区域内的处理后的点云数据进行全采样,保留点云信息。
可选的,基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作,具体包括:
利用立柱划分所述点云空间,将剩余的点云数据转换为三维体素,并基于PointPillars网络进行立柱堆叠操作;
基于所述三维体素,获取点云空间划分完成后的非空立柱数量以及单个立柱数量;
若所述非空立柱数量以及所述单个立柱数量大于第一设定阈值,随机采样非空立柱和单个立柱中的点云;
若所述非空立柱数量或所述单个立柱数量小于第二设定阈值,采用0补齐方式,补齐非空立柱或单个立柱中的点云;
将采样后的点云或补齐后的点云聚集至一个稠密张量上,完成体素稠密化操作。
可选的,利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征,具体包括:
扩展点云信息的维度,确定点云数据中每个点云对应的立柱;
利用每个点云的坐标对所述立柱中的32个点云进行重新排序,生成位置编码;
根据编码后的点云数据确定查询嵌入、键嵌入以及值嵌入;
根据所述查询嵌入以及所述键嵌入计算每根立柱中各个点云之间的相关性,生成权值矩阵;
基于注意力机制,根据所述权值矩阵以及所述值嵌入计算每根立柱中各个点云的注意力特征;
将所述注意力特征以及原特征进行融合确定立柱特征,并生成伪图像;所述原特征为稠密化操作后的三维体素的特征。
可选的,根据所述立柱特征进行三维目标检测任务,具体包括:
将所述立柱特征输入至二维卷积神经网络中,输出特征图;
将所述特征图输入至目标检测网络,完成三维目标检测任务。
可选的,将所述立柱特征输入至二维卷积神经网络中,输出特征图,具体包括:
将所述立柱特征输入至二维卷积神经网络中,通过下采样得到不同尺度的特征信息;
将不同尺度的特征信息通过上采样还原到原尺度并拼接融合;
将融合后的特征信息重新定位到所述伪图像上,得到特征图。
一种三维目标检测系统,包括:
点云数据处理模块,用于获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理;
采样模块,用于基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云;
稠密化操作模块,用于基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;
立柱特征确定模块,用于利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;
三维目标检测模块,用于根据所述立柱特征进行三维目标检测任务。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述三维目标检测方法。
可选的,所述存储器为非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述三维目标检测方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明实施例获取并处理三维目标的检测范围内的环境的三维激光雷达点云数据,利用基于密度聚类(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)的采样方法筛选处理后的点云数据中的冗余点云(即不成簇的点云),并将其作为噪声点云删除;基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;根据所述立柱特征进行三维目标检测任务。本发明删除冗余点云并基于注意力机制的立柱特征提取方法建立立柱中点与点之间的联系,实现在保留立柱化操作的前提下,最大程度保留有效点云信息,提高网络检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所提供的三维目标检测方法流程图;
图2为本发明实施例二所提供的三维目标检测方法流程图;
图3为基于DBSCAN的点云采集方法的流程图;
图4为基于注意力机制的立柱特征提取方法结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种三维目标检测方法、系统及设备,能够最大程度保留有效点云信息,提高网络检测精度。
为使本发明的上述目的、特征和优点云能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供了一种三维目标检测方法,包括:
步骤101:获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理。
在实际应用中,所述步骤101具体包括:以车载三维激光雷达为坐标原点云,限定所述点云空间在深度、宽度和高度维度上的范围;利用所述车载三维激光雷达对三维目标的检测范围内的环境进行扫描,获取所述环境的三维激光雷达点云数据并对所述三维激光雷达点云数据进行坐标转换;删除限定的点云空间的范围以外的坐标转换后的三维激光雷达点云数据,确定处理后的点云数据。
步骤102:基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云。
在实际应用中,所述步骤102具体包括:计算所述处理后的点云数据中每个点云的深度;根据每个点云的高度以及深度将所述点云空间划分为近处空中区域以及剩余区域;在确定邻域和核心对象参数的情况下,基于DBSCAN的点云采样方法筛选所述近处空中区域内的处理后的点云数据中的冗余点云,并删除所述冗余点云;对所述剩余区域内的处理后的点云数据进行全采样,保留点云信息。
在实际应用中,使用DBSCAN聚类算法根据邻域范围和核心对象个数筛选出不同类别的聚类簇,并基于此去提取删除不成簇的冗余点。邻域公式如(1)所示。
λε(o)={q∈E|dist(o,q)≤ε} (1)
其中,dist(o,q)为o,q之间的距离,ε为设定的距离值。
核心对象定义如公式(2)所示。
λε(o)≥MP (2)
其中,MP表示为设定最小点数量。
冗余点为不在任意核心对象o的邻域内的非核心对象样本,其定义如公式(3)所示。
步骤103:基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作。
在实际应用中,所述步骤103具体包括:利用立柱划分所述点云空间,将剩余的点云数据转换为三维体素,并基于PointPillars网络进行立柱堆叠操作;基于所述三维体素,获取点云空间划分完成后的非空立柱数量以及单个立柱数量;若所述非空立柱数量以及所述单个立柱数量大于第一设定阈值,随机采样非空立柱和单个立柱中的点云;若所述非空立柱数量或所述单个立柱数量小于第二设定阈值,采用0补齐方式,补齐非空立柱或单个立柱中的点云;将采样后的点云或补齐后的点云聚集至一个稠密张量上,完成体素稠密化操作。
步骤104:利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征。
在实际应用中,所述步骤104具体包括:扩展点云信息的维度,确定点云数据中每个点云对应的立柱;利用每个点云的坐标对所述立柱中的32个点云进行重新排序,生成位置编码;根据编码后的点云数据确定查询嵌入、键嵌入以及值嵌入;根据所述查询嵌入以及所述键嵌入计算每根立柱中各个点云之间的相关性,生成权值矩阵;基于注意力机制,根据所述权值矩阵以及所述值嵌入计算每根立柱中各个点云的注意力特征;将所述注意力特征以及原特征进行融合确定立柱特征,并生成伪图像;所述原特征为稠密化操作后的三维体素的特征。
在实际应用中,利用点坐标对每根立柱中的点进行排序并赋予位置编码;然后,将编码后的数据用于查询嵌入(Query embeddings,Q)、键嵌入(Key embedding,K)和值嵌入(Value embeddings,V)的计算,并以此完成注意力计算;最后,经过两个线性层,ReLU激活函数和最大池化层得到立柱特征。
步骤105:根据所述立柱特征进行三维目标检测任务。
在实际应用中,所述步骤105具体包括:将所述立柱特征输入至二维卷积神经网络中,输出特征图;将所述特征图输入至目标检测网络,完成三维目标检测任务。
在实际应用中,将所述立柱特征输入至二维卷积神经网络中,输出特征图,具体包括:将所述立柱特征输入至二维卷积神经网络中,通过下采样得到不同尺度的特征信息;将不同尺度的特征信息通过上采样还原到原尺度并拼接融合;将融合后的特征信息重新定位到所述伪图像上,得到特征图。
实施例二
以自动驾驶领域为例,如图2所示,本发明的三维目标检测方法具体步骤如下。
步骤一、获取周围环境的三维激光雷达点云数据。
在本实施例中,使用自动驾驶领域最常用和权威的KITTI自动驾驶数据集对本发明所述方法做详细说明,该数据集的数据采集自装载的2个灰度相机(0号和1号),两个彩色相机(2号和3号)和一个激光雷达,0号相机为参考相机。
将距离、角度信息转换为激光雷达本体坐标系下的坐标信息(x,y,z),转换公式如下:
x=ρ·cosα·cosθ
y=ρ·cosα·sinθ
z=ρ·sinα (4)
式中,ρ为扫描点距离激光雷达的距离;α为扫描点所在扫描线的俯仰角,即垂直方向的角度;θ为水平方向的航向角。最后通过外参标定的旋转矩阵R及平移矩阵T,将激光雷达坐标系下的三维点转换为智能车系统坐标系下的三维位置点(X,Y,Z),转换公式如下:
步骤二、使用基于DBSCAN的点云采样方法筛选并删除冗余点。
基于DBSCAN的点云采样方法流程如图3所示。筛选出定义A:{ai=(xi,yi,zi,ri),i=1,2,3,…,j}为激光雷达点云中的点,其中,x,y和z为点的坐标,r为该点对应的反射强度,j为点的个数。
首先将空间分为近处空中点云区域和其他区域。然后对近处空中点云数据运用基于DBSCAN的聚类算法后,筛选出冗余点并删除;对其他区域采用全采样的方式。点云深度计算公式可由公式(6)表示。
步骤三、将处理后的点云转换为三维体素,同时对其进行稠密化操作。
限定点云空间在深度,宽度和高度维度上的范围在[0,-39.68,-3]米和[69.12,39.68,1]米之间,体素尺寸在深度,宽度和高度维度上分别为[0.16,0.16,4]米,生成分辨率为432×496×1的三维体素。在体素划分结束以后PointPilllars进行立柱堆叠操作。然后为了将稀疏的点云数据变稠密,非空的立柱数量最多保留P个,单个立柱点云数量最多保存N个,若数量过多则采用随机采样的方式得到P个非空立柱和单个立柱中的N个点云;相反的,如果非空立柱数量过少,或者单个立柱点云过少则采用0补齐的方法。最终将所有的点云聚集到一个稠密的尺寸为的张量上。
步骤四、使用立柱特征提取网络处理后的体素进行特征提取,得到立柱特征。
构建立柱特征提取网络如图4所示。首先,将点云信息features从4维(x,y,z,r)拓展到10维(x,y,z,r,xc,yc,zc,xp,yp,zp),其中下标c表示每个点云到该点所对应立柱中所有点平均值的偏移量,下标p表示每个点云到该点所对应立柱中心点的偏移量。
接着,利用点的坐标对立柱中的32个点进行排序,得到0~31的位置编码PE。并将编码后的数据用于查询嵌入(Query embeddings,Q)、键嵌入(Key embedding,K)和值嵌入(Value embeddings,V)的计算,其公式如式(7)所示。
式中,Wq、Wk和Wv分别为查询嵌入、键嵌入和值嵌入的线性投影矩阵。
然后,根据Q和K计算每根立柱中各点之间的相关性,得到权值矩阵,将权值矩阵与对应的V相乘,完成立柱中的注意力计算,其公式如式(8)所示。
最后,将注意力特征经过线性层后与原特征融合,然后依次经过线性层,ReLU激活函数和最大池化层得到最终的立柱特征,其公式如式(9)所示。
F′=maxPooling(ReLU(linear(features+linear(F)))) (9)
其中,F′为立柱特征,maxPooling为最大池化层,ReLU为激活函数,linear为线性层,features为点云信息,linear(F)为注意力特征经过线性层。
全连接块参数如表1所示。
表1
全连接层特征尺寸 | |
全连接块1 | (4,8) |
全连接块2 | (8,64) |
步骤五、将得到的立柱特征送入二维卷积神经网络得到特征图。
将立柱特征输入二维卷积神经网络,通过下采样得到不同尺度的信息,然后通过上采样还原到原尺度并拼接融合,最后将信息重新定位到原伪图像上得到特征图。
步骤六、将特征图输入检测网络完成三维目标检测任务。
将特征图输入到SSD目标检测头进行回归和分类,最终得到物体的类别和位置。
本实施例中所有实验在相同的实验平台(CoreTMi7-11800HCPU,英伟达RTX 3060显卡,16G内存)下完成。训练集和验证集均从KITTI公开数据集的训练样本中获取,其中训练集共3712个训练样本,验证集共3769个训练样本,验证集中的车辆根据车辆包围框的大小和被遮挡程度被分为简单,中等和困难三个难度。训练批尺寸为1,学习率为0.00075,训练周期为80。本实施例进行四组实验,第一组为原始PointPillars目标检测网络实验,第二组实验将本发明所述基于DBSCAN的点云采样方法替换原PointPillars网络中的点云采样部分进行三维目标检测,并使用不同的参数进行实验,第三组实验将本发明所述基于注意力机制的立柱特征提取方法方法替换原PointPillars网络中的简化版PointNet部分进行三维目标检测,第四组实验将本发明所述的两种方法同时替换掉原网络中的相应部分,实验结果如表2所示。表2均使用平均准确度对三维视角下的汽车检测结果进行评价,若最终检测出的汽车包围盒和真值之间的交集大于70%,则认为此检测为正确的,反之为错误的。
表2为PointPillars与本发明所述基于DBSCAN的点云采样方法的目标检测结果表,由表2看出,当测量汽车精度时,本发明在最小点(MP)取值为2和3相较于PointPillars分别提升了(1.88%,1.29%,2.24%)和(0.54%,1.96%,2.39%),最小点取值为4时由于去除冗余点过多,导致测量精度仅在困难难度下超出原网络0.73%;当测量自行车手精度时,由于自行车手的点云较少,去除冗余点时可能会除去有用的点云信息,这导致原网络在中等和困难难度下的精度略微高于本发明所述的基于DBSCAN的点云采样方法,但同时在简单难度下,本发明在最小点取值为2超出PointPillars网络0.16%。
表2
第三组实验将本发明所述基于注意力机制的立柱特征提取方法替换原PointPillars网络中的立柱特征提取部分进行三维目标检测,结果如表3所示,表3PointPillars与本发明所述基于注意力机制的立柱特征提取方法的目标检测结果表。
由表看出,本发明所述方法各个难度下的汽车和自行车手测量精度都高于原网络,通过使用本发明所述方法,PointPillars目标检测网络的汽车和自行车手三维目标检测准确率分别提升了2.70%和1.94%。
表3
第四组实验将本发明所述的两种改进方法同时替换原PointPillars网络中的相应部分进行三维目标检测,结果如表4所示,表4为PointPillars与本发明所述两种方法的目标检测结果表。
由表4看出,加入所述的两种方法以后,本发明在各个难度下的汽车和自行车手测量精度依然都高于原网络。相较于上述实验,本组实验在汽车检测方面取得了最高的平均精度,在自行车手检测精度方面略低于基于注意力机制的立柱特征提取方法的网络,这是因为自行车手检测的点较少,不成簇的点较多,在筛选时容易损失点云信息。通过使用本发明所述方法,PointPillars目标检测网络的汽车和自行车手三维目标检测准确率分别提升了3.18%和1.59%,验证了本发明所述方法的有效性。
表4
实施例三
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种三维目标检测系统。
一种三维目标检测系统,包括:
点云数据处理模块,用于获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理。
采样模块,用于基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云。
稠密化操作模块,用于基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作。
立柱特征确定模块,用于利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征。
三维目标检测模块,用于根据所述立柱特征进行三维目标检测任务。
实施例四
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述所述的三维目标检测方法。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的三维目标检测方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点云说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种三维目标检测方法,其特征在于,包括:
获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理;
基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云;
基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;
利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;
根据所述立柱特征进行三维目标检测任务。
2.根据权利要求1所述的三维目标检测方法,其特征在于,获取三维目标的检测范围内环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理,具体包括:
以车载三维激光雷达为坐标原点云,限定点云空间在深度、宽度和高度维度上的范围;
利用所述车载三维激光雷达对三维目标的检测范围内的环境进行扫描,获取所述环境的三维激光雷达点云数据并对所述三维激光雷达点云数据进行坐标转换;
删除限定的点云空间的范围以外的坐标转换后的三维激光雷达点云数据,确定处理后的点云数据。
3.根据权利要求1所述的三维目标检测方法,其特征在于,基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云,具体包括:
计算处理后的点云数据中每个点云的深度;
根据每个点云的高度以及深度将所述点云空间划分为近处空中区域以及剩余区域;
在确定邻域和核心对象参数的情况下,基于DBSCAN的点云采样方法筛选所述近处空中区域内的处理后的点云数据中的冗余点云,并删除所述冗余点云;
对所述剩余区域内的处理后的点云数据进行全采样,保留点云信息。
4.根据权利要求1所述的三维目标检测方法,其特征在于,基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作,具体包括:
利用立柱划分所述点云空间,将剩余的点云数据转换为三维体素,并基于PointPillars网络进行立柱堆叠操作;
基于所述三维体素,获取点云空间划分完成后的非空立柱数量以及单个立柱数量;
若所述非空立柱数量以及所述单个立柱数量大于第一设定阈值,随机采样非空立柱和单个立柱中的点云;
若所述非空立柱数量或所述单个立柱数量小于第二设定阈值,采用0补齐方式,补齐非空立柱或单个立柱中的点云;
将采样后的点云或补齐后的点云聚集至一个稠密张量上,完成体素稠密化操作。
5.根据权利要求1所述的三维目标检测方法,其特征在于,利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征,具体包括:
扩展点云信息的维度,确定点云数据中每个点云对应的立柱;
利用每个点云的坐标对所述立柱中的32个点云进行重新排序,生成位置编码;
根据编码后的点云数据确定查询嵌入、键嵌入以及值嵌入;
根据所述查询嵌入以及所述键嵌入计算每根立柱中各个点云之间的相关性,生成权值矩阵;
基于注意力机制,根据所述权值矩阵以及所述值嵌入计算每根立柱中各个点云的注意力特征;
将所述注意力特征以及原特征进行融合确定立柱特征,并生成伪图像;所述原特征为稠密化操作后的三维体素的特征。
6.根据权利要求5所述的三维目标检测方法,其特征在于,根据所述立柱特征进行三维目标检测任务,具体包括:
将所述立柱特征输入至二维卷积神经网络中,输出特征图;
将所述特征图输入至目标检测网络,完成三维目标检测任务。
7.根据权利要求6所述的三维目标检测方法,其特征在于,将所述立柱特征输入至二维卷积神经网络中,输出特征图,具体包括:
将所述立柱特征输入至二维卷积神经网络中,通过下采样得到不同尺度的特征信息;
将不同尺度的特征信息通过上采样还原到原尺度并拼接融合;
将融合后的特征信息重新定位到所述伪图像上,得到特征图。
8.一种三维目标检测方法,其特征在于,包括:
点云数据处理模块,用于获取三维目标的检测范围内的环境的三维激光雷达点云数据,并按照点云空间的范围对所述三维激光雷达点云数据进行处理;
采样模块,用于基于DBSCAN的点云采样方法,筛选并删除处理后的点云数据中的冗余点云;
稠密化操作模块,用于基于PointPillars网络,将剩余的点云数据转换为三维体素,并对所述三维体素进行稠密化操作;
立柱特征确定模块,用于利用基于注意力机制的立柱特征提取方法对稠密化操作后的三维体素进行特征提取,确定立柱特征;
三维目标检测模块,用于根据所述立柱特征进行三维目标检测任务。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-7中任一项所述的三维目标检测方法。
10.根据权利要求9所述的电子设备,其特征在于,所述存储器为非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的三维目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311480485.4A CN117475428A (zh) | 2023-11-08 | 2023-11-08 | 一种三维目标检测方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311480485.4A CN117475428A (zh) | 2023-11-08 | 2023-11-08 | 一种三维目标检测方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117475428A true CN117475428A (zh) | 2024-01-30 |
Family
ID=89625268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311480485.4A Pending CN117475428A (zh) | 2023-11-08 | 2023-11-08 | 一种三维目标检测方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475428A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974990A (zh) * | 2024-03-29 | 2024-05-03 | 之江实验室 | 一种基于注意力机制和特征增强结构的点云目标检测方法 |
-
2023
- 2023-11-08 CN CN202311480485.4A patent/CN117475428A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974990A (zh) * | 2024-03-29 | 2024-05-03 | 之江实验室 | 一种基于注意力机制和特征增强结构的点云目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091105B (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN111027401B (zh) | 一种摄像头和激光雷达融合的端到端目标检测方法 | |
CN108830280B (zh) | 一种基于区域提名的小目标检测方法 | |
CN111242041B (zh) | 基于伪图像技术的激光雷达三维目标快速检测方法 | |
CN111145174B (zh) | 基于图像语义特征进行点云筛选的3d目标检测方法 | |
CN113706480B (zh) | 一种基于关键点多尺度特征融合的点云3d目标检测方法 | |
CN105956608A (zh) | 一种基于深度学习的目标定位、分类算法 | |
CN112001226B (zh) | 一种无人驾驶3d目标检测方法、装置及存储介质 | |
CN111476242A (zh) | 一种激光点云语义分割方法及装置 | |
CN115082674A (zh) | 基于注意力机制的多模态数据融合三维目标检测方法 | |
CN111582339A (zh) | 一种基于深度学习的车辆检测与识别的方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN116279592A (zh) | 一种用于无人物流车的可行驶区域划分方法 | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN115147798A (zh) | 可行驶区域预测方法、模型、装置及车辆 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN114332796A (zh) | 一种多传感器融合体素特征图生成方法及系统 | |
CN117746359A (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
CN115187959B (zh) | 一种基于双目视觉的飞行汽车山地着陆方法及系统 | |
CN116310368A (zh) | 一种激光雷达3d目标检测方法 | |
CN116343194A (zh) | 基于垂直表征的双流3d目标检测学习方法及系统 | |
CN106909936B (zh) | 一种基于双车辆可变形部件模型的车辆检测方法 | |
CN117475428A (zh) | 一种三维目标检测方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |