CN114913519A - 一种3d目标检测方法、装置、电子设备及存储介质 - Google Patents
一种3d目标检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114913519A CN114913519A CN202210529532.9A CN202210529532A CN114913519A CN 114913519 A CN114913519 A CN 114913519A CN 202210529532 A CN202210529532 A CN 202210529532A CN 114913519 A CN114913519 A CN 114913519A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- features
- point
- key
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 31
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种3D目标检测方法、装置、电子设备及存储介质。本发明所述的3D目标检测方法包括:获取待检测目标的点云数据和图像数据;采用C‑FPS下采样算法对所述点云数据进行选取,得到点云关键点集合,并提取关键点特征;对所述图像数据进行多通道卷积特征提取,融合关键点特征和图像特征得到融合特征,并将所述融合特征生成3D提案;将3D提案对应的置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。本发明所述的3D目标检测方法,改进FPS下采样算法,提高点云下采样目标点数量,并通过加入多通道图像特征,解决体素划分大小导致的信息丢失问题。
Description
技术领域
本发明涉及3D目标检测技术领域,特别是涉及一种3D目标检测方法、装置、电子设备及存储介质。
背景技术
随着人工智能和机器学习技术的飞速成发展,深度学习算法的应用,作为计算机视觉领域中重要的研究方向之一的目标检测已广泛应用于虚拟世界与现实世界的交互、无人驾驶、智能感知、机器人定位等产业领域,而2D目标检测因其平面维度的局限制约其发展,已经不能够满足人们的需要,取而代之的3D目标检测成为了众多行业的争相关注的焦点,研究的主流。
近年来,因激光雷达技术的快发展,及其在无人驾驶领域的广泛应用,以及相较于图像具有更强的几何表示性以及环境适应性,作为3D目标检测主要数据来源的点云处理技术发展迅速。当前3D目标检测点云处理方法主要分为两种voxel-based(基于体素)和point-based(基于纯点云)。
voxel-based主要按照2D目标检测的思路,对点云做预处理划分体素块或者转换成深度图。苹果公司最先提出了VoxelNet架构,先将点云划分一个个voxel(体素)然后用3D卷积的方式对点云进行处理,最后使用RPN(Region Proposal Network)层对物体进行分类检测与位置回归,避免了传统因人工设计特征而引入的信息瓶颈问题。受VoxelNet的启发,重庆大学的Yan等人提出稀疏卷积的思路,降低了3D卷积的复杂性进一步提高了检测速率。但由于voxel-based需要划分voxel大小的原因,很难平衡其尺寸与内存之间的关系。
point-based是直接把原始的三维点云数据投入神经网络进行训练,并不对点云数据做任何预处理。斯坦福大学的Qi等人根据点云的特点,提出了PointNet和PointNet++,用对称性直接从点云中学习特征,并结合图像提出了Frustum-PointNet,该方法通过生成2D检测框映射到三维空间筛选区域,然后通过PointNet++进行点云分割得到目标结果,虽然缩短了对点云的搜索时间,并且没有任何维度的信息损失,但整个流程太过依赖2D的检测效果,且无法解决遮挡问题。香港大学的Shi等人利用PointNet++模型提出了PointRCNN。先利用具有强大实例分割能力的PointNet++进行点云的初步分割,提出目标候选框,再进行目标候选框的精细化处理以精准地检测目标。但由于点云数据是大量的、无序的,无法直接进行索引搜索,point-based通常需要将点云下采样或者计算点领域的范围,这就需要连续计算相邻点的距离导致不规则的内存访问降低了速率。
香港中文大学团队于2020年提出了一种新的3D目标检测框架PV-RCNN(Point-Voxel Feature Set Abstraction for 3D Object Detection)将上面voxel-based和point-based方法进行结合,用voxel-based划分的体素空间代替point-based领域,有效的利用了两者的优势使得检测结果有大幅提升,但仍存在的一些问题:
point-based下采样采用的是FPS(最远点下采样)方法,该方法适合对目标物体进行均匀采样,而对于区域点云很容易导致下采样后背景点数量太多,因而影响后续目标点的分类。
voxel-based划分考虑处理速度的问题,通常会将体素区域划分较大,这就导致卷积提取特征后一些细节信息的丢失,很容易导致小目标检测的遗漏。
发明内容
基于此,本发明的目的在于,提供一种3D目标检测方法、装置、电子设备及存储介质,改进FPS下采样算法,提高点云下采样目标点数量,并通过加入多通道图像特征,解决体素划分大小导致的信息丢失问题。
第一方面,本发明提供一种3D目标检测方法,包括以下步骤:
获取待检测目标的点云数据和图像数据;
采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合;
将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征;
将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征;
对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征;
融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案;
将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数;
将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
进一步地,采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合,包括:
对于所述点云数据,使用如下公式对每一个点云点x[i]增加一个对于中心点的偏移量:
其中,i=1,2,…,n;mean代表点云数据xyz的中点,mean[0]代表x的中点,xyzmax代表点云数据xyz的最大值,xyzmax[0]代表x的最大值;
对于经过增加偏移量的点云数据N={P1,P2,...,Pn},随机选取其中的一个点云点Pi,加入到初始点云关键点集合S,得到S1={P11};
在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,得到S1={P11,P12};
重复执行在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,直至得到最终的点云关键点集合S={S1,S2,...,Sm},其中Si={Pi1,Pi2,...,Pic};
其中,i代表点云序号,n代表读取的点云数据的个数,m代表S集合点个数,c代表已经采样的点数量。
进一步地,将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征,包括:
采用3D Voxel CNN作为骨干网络,将所述点云数据划分为L×W×H的体素,用3D稀疏卷积进行特征提取,用4层3×3×3的卷积分别得到1×,2×,4×,8×降采样特征图。
进一步地,将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征,包括:
使下采样后的2048个关键点均匀分布在voxel-based划分的非空体素中;
使用如下公式,使用PointNet++的集合抽象模块将周围非空的体素特征聚合:
fi (pvk)=max{G(M(Si (lk))}
其中,Si (lk)表示相邻体素特征集合,M(.)表示在相邻体素集合中随机抽取最多k个voxel进行计算,G(.)表示用于编码体素特征和相对位置的多层感知器网络,max(.)表示max-pooling操作;
使用如下公式,将聚合后的四个特征拼接到一起,得到每一个所述点云关键点的关键点特征:
fi (pv)=[fi (pv1),fi (pv2),fi (pv3),fi (pv4)]
其中,f(pv)表示体素特征,i=1,2,…,n。
进一步地,对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征,包括:
将图像转换成256×256的大小,然后分别通过3×3的卷积核,得到128×128、128×128、64×64、32×32的特征图;
采用卷积核尺寸为3×3,步长为2,先将图像RGB 3通道通过卷积转换成32通道,然后卷积扩充得到64和128通道;
将多通道的特征图进行相加,得到统一维度的图像特征。
进一步地,融合所述关键点特征和所述图像特征得到融合特征,包括:
使用padding将所述图像特征的维度扩充到与点云的所述关键点特征相同的维度;
使用以下公式,融合所述关键点特征和所述经过维度扩充的图像特征,得到融合特征:
fi (pv)=[fi (pv1)+Ifi 1,fi (pv2)+Ifi 2,fi (pv3)+Ifi 3,fi (pv4)+Ifi 4)
其中,If表示点云对应图像特征,f(pv)表示体素特征,i=1,2,…,n。
进一步地,将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数,包括:
对于所述3D提案,采样6×6×6个网格点,得到所述生成领域球中心的网格点;
根据所述网格点的临球得到所述3D提案中的关键点;
使用PointNet模块将所述3D提案中的关键点和所述生成领域球中心的网格点整合为边框特征,通过2层MLP将所述边框特征转换为256维;
使用所述边框特征预测边界框和置信度分数。
第二方面,本发明还提供一种3D目标检测装置,包括:
数据获取模块,用于获取待检测目标的点云数据和图像数据;
下采样模块,用于采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合;
初始特征提取模块,用于将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征;
关键点特征提取模块,用于将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征;
图像特征提取模块,用于对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征;
特征融合模块,用于融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案;
边界框和置信度分数预测模块,用于将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数;
阈值比较模块,用于将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
第三方面,本发明还提供一种电子设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明第一方面任一所述的一种3D目标检测方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种3D目标检测方法的步骤。
本发明提供的一种3D目标检测方法、装置、电子设备及存储介质,针对下采样目标点数量少的问题提出改进FPS下采样算法,提高点云下采样目标点数量。针对voxel-based划分大小导致的信息丢失,拟采用多通道图像特征加入到点云,弥补体素划分大小导致的部分特征信息丢失,增强对3D目标检测中对小目标检测的准确性。在较新提出的PV-RCNN模型上进行上述改进,在公开的无人驾驶数据集KITTI上进行验证,改进后模型对于行人和骑行者检测精度平均提升1.3%和1.6%。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种3D目标检测方法的流程示意图;
图2为本发明在一个实施例中使用的网络框架图;
图3为本发明在一个实施例中使用的图像多通道特征融合图;
图4为本发明提供的一种3D目标检测装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对背景技术中的问题,本申请实施例提供一种3D目标检测方法,如图1和图2所示,该方法包括以下步骤:
S01:获取待检测目标的点云数据和图像数据。
S02:采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合。
在一个优选的实施例中,通过C-FPS算法下采样2048个关键点
根据KITTI点云数据集与图像的联系,得到点云坐标XYZ的范围。X轴的检测范围在[0,70.4]m之内,Y轴的检测范围在[-40,40]m之内,Z轴的检测范围在[-3,1]m之内,根据两点之间的距离公式可以判断X轴主要影响整个点云下采样的分布,根据这个特征本发明对X增加一个对于中心点的偏移量,包括以下子步骤:
S021:对于所述点云数据,使用如下公式对每一个点云点x[i]增加一个对于中心点的偏移量:
其中,i=1,2,…,n;mean代表点云数据xyz的中点,mean[0]代表x的中点,xyzmax代表点云数据xyz的最大值,xyzmax[0]代表x的最大值。
S022:对于经过增加偏移量的点云数据N={P1,P2,...,Pn},随机选取其中的一个点云点Pi,加入到初始点云关键点集合S,得到S1={P11}。
S023:在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,得到S1={P11,P12}。
S024:重复执行在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,直至得到最终的点云关键点集合S={S1,S2,...,Sm},其中Si={Pi1,Pi2,...,Pic};
其中,i代表点云序号,n代表读取的点云数据的个数,m代表S集合点个数,c代表已经采样的点数量。
S03:将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征。
在一个优选的实施例中,采用3D Voxel CNN作为骨干网络,将所述点云数据划分为L×W×H的体素,用3D稀疏卷积进行特征提取,用4层3×3×3的卷积分别得到1×,2×,4×,8×降采样特征图。
S04:将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征。
在一个优选的实施例中,包括以下子步骤:
S041:使下采样后的2048个关键点均匀分布在voxel-based划分的非空体素中。
S042:使用如下公式,使用PointNet++的集合抽象模块将周围非空的体素特征聚合:
fi (pvk)=max{G(M(Si (lk))}
其中,Si (lk)表示相邻体素特征集合,M(.)表示在相邻体素集合中随机抽取最多k个voxel进行计算,G(.)表示用于编码体素特征和相对位置的多层感知器网络,max(.)表示max-pooling操作。
S043:使用如下公式,将聚合后的四个特征拼接到一起,得到每一个所述点云关键点的关键点特征:
fi (pv)=[fi (pv1),fi (pv2),fi (pv3),fi (pv4)]
其中,f(pv)表示体素特征,i=1,2,…,n。
S05:对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征。
在一个优选的实施例中,根据voxel-based与二维图像处理类似的思想,同步对图像进行处理如图3所示,包括以下子步骤:
S051:将图像转换成256×256的大小,然后分别通过3×3的卷积核,得到128×128、128×128、64×64、32×32的特征图。
S052:采用卷积核尺寸为3×3,步长为2,先将图像RGB 3通道通过卷积转换成32通道,然后卷积扩充得到64和128通道。
S053:将多通道的特征图进行相加,得到统一维度的图像特征。
S06:融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案。
优选的,包括以下子步骤:
S061:使用padding将所述图像特征的维度扩充到与点云的所述关键点特征相同的维度。
S062:使用以下公式,融合所述关键点特征和所述经过维度扩充的图像特征,得到融合特征:
fi (pv)=[fi (pv1)+Ifi 1,fi (pv2)+Ifi 2,fi (pv3)+Ifi 3,fi (pv4)+Ifi 4)
其中,If表示点云对应图像特征,f(pv)表示体素特征,i=1,2,…,n。
S07:将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数。
优选的,包括以下子步骤:
S071:对于所述3D提案,采样6×6×6个网格点,得到所述生成领域球中心的网格点;
S072:根据所述网格点的临球得到所述3D提案中的关键点;
S073:使用PointNet模块将所述3D提案中的关键点和所述生成领域球中心的网格点整合为边框特征,通过2层MLP将所述边框特征转换为256维;
S074:使用所述边框特征预测边界框和置信度分数。
S08:将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
在一个优选的实施例中,目标检测需要同时实现目标定位和目标识别两项任务。本发明采用行业公认的指标,通过比较预测边框和ground truth边框的重叠程度(Intersection over Union,IoU)和阈值(e.g.0.5)的大小来判定目标定位的正确性;通过置信度分数和阈值的比较确定目标识别的正确性。最终将多类别目标的检测问题转换为“某类物体检测正确、检测错误”的二分类问题,使用目标分类的一系列指标来评估模型精度。
本发明采用平均精度均值(Average Precision,mAP)来评估单类目标检测模型的结果,IOU阈值对于车、行人和骑行者分别设置为0.7,0.5,0.5,评估计算需要用到的几个指标如下:
其中样本分类情况,准确率召回率计算如表1所示:
表1样本分类
真正性TP:正确样本预测为正,在目标检测中为IOU大于阈值记为TP;
假正性FP:错误样本预测为正,检测框的IOU小于阈值记为FP;
假反性FN:正确样本预测为负,没有检测到框;
真反性TN:错误样本预测为负;
AP平均精度Average Precision:表1计算出来的准确率和召回率所画曲线下围成的面积。
mAP平均精度均值,mean Average Precision,指各类计算出AP在不同类别上或不同难度下的均值。
对于整个数据集主要考察三个目标分类,分别是车、行人、骑行者。使用mAP定量分析模型精度,在KITTI数据集上进行三维目标框定性评估。物体检测评估标准对物体漏检和错检进行惩罚,同时规定对同一物体重复且正确地检测只算一次,多余的检测视为错误(假阳性)。
在另一个优选的实施例中,对于3D目标检测模型的训练参数包括:
设置三维体素CNN四个层次,特征维数分别为16、32、64、64。在特征拼接中,将每层相邻的两个半径分别设置为(0.4m,0.8m)、(0.8m,1.2m)、(1.2m,2.4m)、(2.4m,4.8m),随机点集合抽象的邻域半径分别为(0.4m,0.8m)。对于KITTI数据集,设置X轴的检测范围在[0,70.4]m范围内,Y轴的检测范围在[-40,40]m范围内,Z轴的检测范围在[-3,1]m范围内,每个轴的体素大小为(0.05m,0.05m,0.1m)。IOU阈值对于车、行人和自行车分别设置为0.7,0.5,0.5。在训练过程中,同样采用广泛应用的三维目标检测的数据增强策略,包括沿着X轴随机翻转,采用随机缩放因子进行全局缩放,采样[-π/4,π/4]的随机角度围绕。
本申请实施例还提供一种3D目标检测装置,如图4所示,该3D目标检测装置400包括:
数据获取模块401,用于获取待检测目标的点云数据和图像数据;
下采样模块402,用于采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合;
初始特征提取模块403,用于将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征;
关键点特征提取模块404,用于将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征;
图像特征提取模块405,用于对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征;
特征融合模块406,用于融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案;
边界框和置信度分数预测模块407,用于将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数;
阈值比较模块408,用于将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
优选的,下采样模块包括:
偏移量增加单元,用于对于所述点云数据,使用如下公式对每一个点云点x[i]增加一个对于中心点的偏移量:
其中,i=1,2,…,n;mean代表点云数据xyz的中点,mean[0]代表x的中点,xyzmax代表点云数据xyz的最大值,xyzmax[0]代表x的最大值;
关键点选择单元,用于对于经过增加偏移量的点云数据N={P1,P2,...,Pn},随机选取其中的一个点云点Pi,加入到初始点云关键点集合S,得到S1={P11};
以及,用于在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,得到S1={P11,P12};
以及,用于重复执行在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,直至得到最终的点云关键点集合S={S1,S2,...,Sm},其中Si={Pi1,Pi2,...,Pic};
其中,i代表点云序号,n代表读取的点云数据的个数,m代表S集合点个数,c代表已经采样的点数量。
优选的,初始特征提取模块包括:
卷积单元,用于采用3D Voxel CNN作为骨干网络,将所述点云数据划分为L×W×H的体素,用3D稀疏卷积进行特征提取,用4层3×3×3的卷积分别得到1×,2×,4×,8×降采样特征图。
优选的,关键点特征提取模块包括:
关键点分布单元,用于使下采样后的2048个关键点均匀分布在voxel-based划分的非空体素中;
特征聚合单元,用于使用如下公式,使用PointNet++的集合抽象模块将周围非空的体素特征聚合:
fi (pvk)=max{G(M(Si (lk))}
其中,Si (lk)表示相邻体素特征集合,M(.)表示在相邻体素集合中随机抽取最多k个voxel进行计算,G(.)表示用于编码体素特征和相对位置的多层感知器网络,max(.)表示max-pooling操作;
特征拼单元,用于使用如下公式,将聚合后的四个特征拼接到一起,得到每一个所述点云关键点的关键点特征:
fi (pv)=[fi (pv1),fi (pv2),fi (pv3),fi (pv4)]
其中,f(pv)表示体素特征,i=1,2,…,n。
优选的,图像特征提取模块包括:
特征图提取单元,用于将图像转换成256×256的大小,然后分别通过3×3的卷积核,得到128×128、128×128、64×64、32×32的特征图;
卷积扩充单元,用于采用卷积核尺寸为3×3,步长为2,先将图像RGB 3通道通过卷积转换成32通道,然后卷积扩充得到64和128通道;
特征图相加单元,用于将多通道的特征图进行相加,得到统一维度的图像特征。
优选的,特征融合模块包括:
维度扩充单元,用于使用padding将所述图像特征的维度扩充到与点云的所述关键点特征相同的维度;
融合单元,用于使用以下公式,融合所述关键点特征和所述经过维度扩充的图像特征,得到融合特征:
fi (pv)=[fi (pv1)+Ifi 1,fi (pv2)+Ifi 2,fi (pv3)+Ifi 3,fi (pv4)+Ifi 4)
其中,If表示点云对应图像特征,f(pv)表示体素特征,i=1,2,…,n。
优选的,边界框和置信度分数预测模块包括:
网格点获取单元,用于对于所述3D提案,采样6×6×6个网格点,得到所述生成领域球中心的网格点;
关键点获取单元,用于根据所述网格点的临球得到所述3D提案中的关键点;
整合单元,用于使用PointNet模块将所述3D提案中的关键点和所述生成领域球中心的网格点整合为边框特征,通过2层MLP将所述边框特征转换为256维;
预测单元,用于使用所述边框特征预测边界框和置信度分数。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种电子设备,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如前所述的一种3D目标检测方法的步骤。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供一种计算机可读存储介质,
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的一种3D目标检测方法的步骤。
计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R A M)、只读存储器(RO M)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明提供的一种3D目标检测方法、装置、电子设备及存储介质,针对下采样目标点数量少的问题提出改进FPS下采样算法,提高点云下采样目标点数量。针对voxel-based划分大小导致的信息丢失,拟采用多通道图像特征加入到点云,弥补体素划分大小导致的部分特征信息丢失,增强对3D目标检测中对小目标检测的准确性。在较新提出的PV-RCNN模型上进行上述改进,在公开的无人驾驶数据集KITTI上进行验证,改进后模型对于行人和骑行者检测精度平均提升1.3%和1.6%。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种3D目标检测方法,其特征在于,包括以下步骤:
获取待检测目标的点云数据和图像数据;
采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合;
将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征;
将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征;
对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征;
融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案;
将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数;
将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
2.根据权利要求1所述的一种3D目标检测方法,其特征在于,采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合,包括:
对于所述点云数据,使用如下公式对每一个点云点x[i]增加一个对于中心点的偏移量:
其中,i=1,2,…,n;mean代表点云数据xyz的中点,mean[0]代表x的中点,xyzmax代表点云数据xyz的最大值,xyzmax[0]代表x的最大值;
对于经过增加偏移量的点云数据N={P1,P2,…,Pn},随机选取其中的一个点云点Pi,加入到初始点云关键点集合S,得到S1={P11};
在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,得到S1={P11,P12};
重复执行在剩余的点云点中,选取距离点集S最远的点Pk,加入点云关键点集合,直至得到最终的点云关键点集合S={S1,S2,…,Sm},其中Si={Pi1,Pi2,…,Pic};
其中,i代表点云序号,n代表读取的点云数据的个数,m代表S集合点个数,c代表已经采样的点数量。
3.根据权利要求2所述的一种3D目标检测方法,其特征在于,将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征,包括:
采用3D Voxel CNN作为骨干网络,将所述点云数据划分为L×W×H的体素,用3D稀疏卷积进行特征提取,用4层3×3×3的卷积分别得到1×,2×,4×,8×降采样特征图。
4.根据权利要求3所述的一种3D目标检测方法,其特征在于,将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征,包括:
使下采样后的2048个关键点均匀分布在voxel-based划分的非空体素中;
使用如下公式,使用PointNet++的集合抽象模块将周围非空的体素特征聚合:
fi (pvk)=max{G(M(Si (lk))}
其中,Si (lk)表示相邻体素特征集合,M(.)表示在相邻体素集合中随机抽取最多k个voxel进行计算,G(.)表示用于编码体素特征和相对位置的多层感知器网络,max(.)表示max-pooling操作;
使用如下公式,将聚合后的四个特征拼接到一起,得到每一个所述点云关键点的关键点特征:
fi (pv)=[fi (pv1),fi (pv2),fi (pv3),fi (pv4)]
其中,f(pv)表示体素特征,i=1,2,…,n。
5.根据权利要求4所述的一种3D目标检测方法,其特征在于,对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征,包括:
将图像转换成256×256的大小,然后分别通过3×3的卷积核,得到128×128、128×128、64×64、32×32的特征图;
采用卷积核尺寸为3×3,步长为2,先将图像RGB 3通道通过卷积转换成32通道,然后卷积扩充得到64和128通道;
将多通道的特征图进行相加,得到统一维度的图像特征。
6.根据权利要求5所述的一种3D目标检测方法,其特征在于,融合所述关键点特征和所述图像特征得到融合特征,包括:
使用padding将所述图像特征的维度扩充到与点云的所述关键点特征相同的维度;
使用以下公式,融合所述关键点特征和所述经过维度扩充的图像特征,得到融合特征:
fi (pv)=[fi (pv1)+Ifi 1,fi (pv2)+Ifi 2,fi (pv3)+Ifi 3,fi (pv4)+Ifi 4)
其中,If表示点云对应图像特征,f(pv)表示体素特征,i=1,2,…,n。
7.根据权利要求6所述的一种3D目标检测方法,其特征在于,将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数,包括:
对于所述3D提案,采样6×6×6个网格点,得到所述生成领域球中心的网格点;
根据所述网格点的临球得到所述3D提案中的关键点;
使用PointNet模块将所述3D提案中的关键点和所述生成领域球中心的网格点整合为边框特征,通过2层MLP将所述边框特征转换为256维;
使用所述边框特征预测边界框和置信度分数。
8.一种3D目标检测装置,其特征在于,包括:
数据获取模块,用于获取待检测目标的点云数据和图像数据;
下采样模块,用于采用C-FPS下采样算法对所述点云数据进行选取,得到点云关键点集合;
初始特征提取模块,用于将所述点云数据划分为间距相等的多个体素,并提取所述体素的初始特征;
关键点特征提取模块,用于将所述点云关键点集合中的每一个点云关键点均匀分布在所述体素中,再将每一个所述点云采样点周围的非空体素的初始特征聚合,得到每一个所述点云关键点的关键点特征;
图像特征提取模块,用于对所述图像数据进行多通道卷积特征提取,并将得到的多通道特征图进行融合,得到统一维度的图像特征;
特征融合模块,用于融合所述关键点特征和所述图像特征得到融合特征,并将所述融合特征生成3D提案;
边界框和置信度分数预测模块,用于将所述3D提案中的关键点和生成领域球中心的网格点进行特征聚合,使用得到的聚合特征预测所述聚合特征对应的边界框和置信度分数;
阈值比较模块,用于将所述置信度分数与阈值进行比较,根据所述比较结果得到所述待检测目标的最终识别结果。
9.一种电子设备,其特征在于,包括:
至少一个存储器以及至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一所述的一种3D目标检测方法的步骤。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的一种3D目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529532.9A CN114913519B (zh) | 2022-05-16 | 2022-05-16 | 一种3d目标检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529532.9A CN114913519B (zh) | 2022-05-16 | 2022-05-16 | 一种3d目标检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114913519A true CN114913519A (zh) | 2022-08-16 |
CN114913519B CN114913519B (zh) | 2024-04-19 |
Family
ID=82767623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210529532.9A Active CN114913519B (zh) | 2022-05-16 | 2022-05-16 | 一种3d目标检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913519B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116520289A (zh) * | 2023-07-04 | 2023-08-01 | 东莞市新通电子设备有限公司 | 五金件加工过程智能控制方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970518B1 (en) * | 2017-11-14 | 2021-04-06 | Apple Inc. | Voxel-based feature learning network |
CN113706480A (zh) * | 2021-08-13 | 2021-11-26 | 重庆邮电大学 | 一种基于关键点多尺度特征融合的点云3d目标检测方法 |
CN114092780A (zh) * | 2021-11-12 | 2022-02-25 | 天津大学 | 基于点云与图像数据融合的三维目标检测方法 |
-
2022
- 2022-05-16 CN CN202210529532.9A patent/CN114913519B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970518B1 (en) * | 2017-11-14 | 2021-04-06 | Apple Inc. | Voxel-based feature learning network |
CN113706480A (zh) * | 2021-08-13 | 2021-11-26 | 重庆邮电大学 | 一种基于关键点多尺度特征融合的点云3d目标检测方法 |
CN114092780A (zh) * | 2021-11-12 | 2022-02-25 | 天津大学 | 基于点云与图像数据融合的三维目标检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116520289A (zh) * | 2023-07-04 | 2023-08-01 | 东莞市新通电子设备有限公司 | 五金件加工过程智能控制方法及相关装置 |
CN116520289B (zh) * | 2023-07-04 | 2023-09-01 | 东莞市新通电子设备有限公司 | 五金件加工过程智能控制方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114913519B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613378B (zh) | 3d目标检测方法、系统、介质及终端 | |
Derpanis et al. | Classification of traffic video based on a spatiotemporal orientation analysis | |
CN112347987A (zh) | 一种多模数据融合的三维目标检测方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
Chen et al. | Focalformer3d: focusing on hard instance for 3d object detection | |
CN115457395A (zh) | 基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114494248B (zh) | 基于点云和不同视角下的图像的三维目标检测系统及方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114913519B (zh) | 一种3d目标检测方法、装置、电子设备及存储介质 | |
CN115393601A (zh) | 一种基于点云数据的三维目标检测方法 | |
CN117495891B (zh) | 点云边缘检测方法、装置和电子设备 | |
CN115222954A (zh) | 弱感知目标检测方法及相关设备 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
Gan et al. | MANet: End‐to‐End Learning for Point Cloud Based on Robust Pointpillar and Multiattention | |
Kim et al. | LiDAR Based 3D object detection using CCD information | |
Théodose et al. | R-AGNO-RPN: A LIDAR-Camera Region Deep Network for Resolution-Agnostic Detection | |
Park et al. | MVDet: multi-view multi-class object detection without ground plane assumption | |
Chen et al. | Multi-view 3D object detection based on point cloud enhancement | |
Shi et al. | 3D Vehicle Detection Algorithm Based on Multimodal Decision-Level Fusion. | |
US20230105331A1 (en) | Methods and systems for semantic scene completion for sparse 3d data | |
CN113362372B (zh) | 一种单目标追踪方法及计算机可读介质 | |
Nobis | Autonomous driving: Radar sensor noise filtering and multimodal sensor fusion for object detection with artificial neural net-works | |
Brorsson et al. | Semi-supervised 3d lane detection through spatio-temporal consistency learned from videos | |
Song et al. | A 3D Point Cloud Object Detection Algorithm Based on MSCS-Pointpillars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |