CN115311653A - 一种3d目标检测方法、装置、终端和存储介质 - Google Patents
一种3d目标检测方法、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN115311653A CN115311653A CN202210967172.0A CN202210967172A CN115311653A CN 115311653 A CN115311653 A CN 115311653A CN 202210967172 A CN202210967172 A CN 202210967172A CN 115311653 A CN115311653 A CN 115311653A
- Authority
- CN
- China
- Prior art keywords
- target object
- interest
- region
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/76—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种3D目标检测方法、装置、终端和存储介质,该方法包括:获取包含目标物的激光点云数据作为原始三维点云数据;基于原始三维点云数据进行体素化、3D稀疏卷积层、以及PRN网络处理,得到感兴趣区域,作为感兴趣区域;基于感兴趣区域,进行最远点采样和空间网格化处理,得到中心点局部特征;基于中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征;基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。该方案,通过设置基于原始点云网格注意力机制的两阶段3D目标检测算法,提升3D目标检测的检测效果。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种3D目标检测方法、装置、终端和存储介质,尤其涉及一种基于原始点云空间注意力机制的3D目标检测算法、装置、终端和存储介质。
背景技术
作为机器人和自动驾驶感知系统的关键技术,3D目标检测技术(即三维目标检测技术)取得了快速进展。由激光雷达获取到的点云可以用来进行物体三维结构的描述、姿态估计和空间距离感知,所以激光雷达成为3D目标检测技术最常用的传感器。基于原始点云的3D目标检测技术,旨在利用由激光雷达获取到的点云,对一些场景中车辆、行人等目标在环境中的位置、体积大小和朝向角度进行检测,以进一步对场景进行理解。
相关方案中,3D目标检测方法大致可分为基于体素的方法和基于点的方法。其中,基于体素的方法,将点云划分为规则的网格,然后使用成熟的3D卷积进行特征提取;然而,基于体素的方法在进行体素特征编码时,会损失点云的精确位置信息,存在位置检测精准性差的问题,使得基于体素的3D目标检测模型的性能存在瓶颈。而基于点的方法,使用原始点云进行检测,由于点数量较多,需要对点进行多层级采样和特征聚合,这类方法通常效率较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的目的在于,提供一种3D目标检测方法、装置、终端和存储介质,以解决在相关方案的3D目标检测中,基于体素的3D目标检测方法的位置检测精确性差,而基于点的3D目标检测方法的检测效率低,使得相关方案的3D目标检测的检测效果较差的问题,达到通过设置基于原始点云网格注意力机制的两阶段3D目标检测算法,能够提高3D目标检测的位置检测精确性和检测效率,有利于提升3D目标检测的检测效果的效果。
本发明提供一种3D目标检测方法,包括:获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据;基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域;基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征;基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征;基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。
在一些实施方式中,其中,获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据,包括:获取由激光雷达采集到的所述目标物的激光点云数据,作为所述目标物的原始三维点云数据;其中,所述目标物的原始三维点云数据,在X轴方向的取值范围为第一设定范围,在Y轴方向的取值范围为第二设定范围,在Z轴方向的取值范围为第三设定范围;和/或,基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域,包括:基于所述目标物的原始三维点云数据,进行体素化处理,得到所述目标物的原始三维点云数据的三维体素;基于所述目标物的原始三维点云数据的三维体素,使用4层3D稀疏卷积进行特征提取,得到所述目标物的原始三维点云数据的多个尺度空间特征;基于所述目标物的原始三维点云数据的多个尺度空间特征,将4层中最后一层的多个尺度空间特征进行视角压缩后,利用区域建议网络进行感兴趣区域提取,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域。
在一些实施方式中,基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征,包括:基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构;在所述柱形结构的内部,对所述目标物的原始三维点云数据进行最远点采样,得到所述目标物的感兴趣区域中的兴趣点,作为所述目标物的兴趣采样点;基于所述目标物的感兴趣区域,对所述目标物的感兴趣区域进行均匀网格化,得到所述目标物的多个感兴趣区域网格,作为所述目标物的多个兴趣网格;确定所述目标物的每个兴趣网格的中心点,并确定所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离;基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征。
在一些实施方式中,其中,基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构,包括:基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域设置为圆柱体,将该圆柱体所在柱形结构,作为对所述目标物的感兴趣区域划分后的柱形结构;其中,该圆柱体的底部半径r为高h为h=βhr;其中,wr、lr、hr分别为感兴趣区域的宽、长和高,α和β为设定的柱体扩张比例参数;和/或,基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征,包括:基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征;基于所述目标物的每个兴趣网格的中心点的位置特征,对所述目标物的每个兴趣网格的中心点进行升维处理,得到所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合;基于所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合,通过改变所述设定球形区域所属球体的半径大小,获取所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合;基于所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合,对不同半径尺度上的特征进行拼接,得到所述目标物的所有兴趣网格的中心点的局部特征。
在一些实施方式中,基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征,包括:基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,按以下公式计算,得到所述目标物的每个兴趣网格的中心点的位置特征:
fd=g([Δd(i,1),Δd(i,2),...,Δd(i,m)]);
Δd(i,m)={Δxi,m,Δyi,m,Δzi,m,Δfi,m};
其中,fd是所述目标物的每个兴趣网格的中心点的位置特征,g(g)为使用前馈神经网络将所述相对距离的特征映射到高维特征空间的特征变换函数,Δxi,m,Δyi,m和Δzi,m为所述目标物的兴趣采样点距离所述目标物的每个兴趣网格的中心点的相对距离,Δfi,m为所述目标物的兴趣采样点的额外特征。
在一些实施方式中,基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征,包括:基于所述目标物的中心点局部特征,使用3层前馈神经网络对所述目标物的中心点坐标进行升维,并通过最大池化函数对所述目标物的中心点局部特征的不同半径尺度特征进行聚合;使用前馈神经网络,调整经所述升维和所述聚合后的所述目标物的中心点局部特征的维度,将所述目标物的中心点局部特征的位置编码特征和不同半径尺度局部特征进行加和,得到所述目标物的所有感兴趣网格的中心点特征;基于所述目标物的感兴趣网格的中心点特征,利用注意力机制捕获所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点之间的依赖关系,根据该依赖关系对所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点特征分配对应的权重,以得到所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系;基于所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系,使用多头注意力机制,确定所述目标物的感兴趣区域特征。
在一些实施方式中,基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测,包括:基于所述目标物的感兴趣区域特征,将所述目标物的感兴趣区域特征输入预设的检测头,进行所述目标物的3D目标检测框的分类和回归处理,确定所述目标物的3D目标检测框所在检测模型损失;随着所述目标物的3D目标检测框所在检测模型损失的降低,确定所述目标物的3D目标检测框,实现对所述目标物的3D目标检测;其中,所述目标物的3D目标检测框所在检测模型损失,包括:区域建议网络损失和细化阶段损失;所述区域建议网络损失,包括:所述目标物的3D目标检测框的置信度损失,以及所述目标物的3D目标检测框的位置回归损失。
与上述方法相匹配,本发明另一方面提供一种3D目标检测装置,包括:获取单元,被配置为获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据;检测单元,被配置为基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域;所述检测单元,还被配置为基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征;所述检测单元,还被配置为基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征;所述检测单元,还被配置为基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。
与上述装置相匹配,本发明再一方面提供一种终端,包括:以上所述的3D目标检测装置。
与上述方法相匹配,本发明再一方面提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以上所述的3D目标检测方法。
由此,本发明的方案,通过获取包含目标物的激光点云数据作为原始三维点云数据,对原始三维点云数据进行体素化和3D稀疏卷积层处理后提取感兴趣区域,基于感兴趣区域进行最远点采样和空间网格编码处理得到感兴趣特征点,进而使用该感兴趣区域特征进行目标类别预测和框位置回归,实现对目标物的3D目标检测,从而,通过设置基于原始点云网格注意力机制的两阶段3D目标检测算法,能够提高3D目标检测的位置检测精确性和检测效率,有利于提升3D目标检测的检测效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的3D目标检测方法的一实施例的流程示意图;
图2为本发明的方法中基于目标物的原始三维点云数据进行体素化、3D稀疏卷积层、以及PRN网络处理的一实施例的流程示意图;
图3为本发明的方法中基于目标物的感兴趣区域进行最远点采样和空间网格化处理的一实施例的流程示意图;
图4为本发明的方法中基于每个兴趣网格的中心点与目标物的兴趣采样点之间的相对距离确定所有兴趣网格的中心点的局部特征的一实施例的流程示意图;
图5为本发明的方法中基于目标物的中心点局部特征进行坐标升维和特征加和处理的一实施例的流程示意图;
图6为本发明的方法中基于目标物的感兴趣区域特征进行所述目标物的目标类别预测和框位置回归处理的一实施例的流程示意图;
图7为本发明的3D目标检测装置的一实施例的结构示意图;
图8为本发明的一种基于原始点云空间注意力机制的3D目标检测算法的一实施例的流程示意图;
图9为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中感兴趣区域采样示意图;
图10为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中多尺度空间特征聚合示意图;
图11为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中点特征编码示意图;
图12为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中网格注意力特征加权示意图,其中,(a)为网格化的感兴趣区域示意图,(b)为经过注意力计算后,不同网格具有不同的特征权重示意图;
图13为本发明的一种基于原始点云空间注意力机制的3D目标检测算法的一实施例的多个场景下的检测效果示意图,其中,(a)为第一场景下的检测效果示意图,(b)为第二场景下的检测效果示意图,(c)为第三场景下的检测效果示意图;
图14为本发明的一种基于原始点云空间注意力机制的3D目标检测算法与相关方案中其他算法的检测效果对比示意图,其中,(a)为SECOND算法(即一种基于三维点云的目标检测算法)的检测效果示意图,(b)为PointPillars算法(即一种激光点云3D目标检测算法)的检测效果示意图,(c)为基于原始点云空间注意力机制的3D目标检测算法的检测效果示意图。
结合附图,本发明实施例中附图标记如下:
102-获取单元;104-检测单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到,在相关方案的3D目标检测方法中,基于体素的3D目标检测方法的位置检测精确性差,而基于点的3D目标检测方法的检测效率低,使得相关方案的3D目标检测方法的检测效果较差。
另外,考虑到,3D目标检测方法的目标检测范式,又可分为单阶段目标检测和两阶段目标检测。其中,单阶段目标检测,直接通过提取到的点云特征预测锚框,速度较快,但准确率较低。而两阶段目标检测,通过区域建议网络(Region Proposal Networks,RPN)生成可能存在目标物体的感兴趣区域(Region of Interest,RoI),接着对这些区域进行进一步特征提取,判断区域内物体的类别、位置、体积大小和朝向角度,用以生成更精细化的候选框,使得两阶段目标检测方法获得了更高的准确率。
随着3D目标检测算法的不断发展,一些方案的趋势是在二阶段细化过程中,设计更具潜力的特征池化方法。通过对一些方案的经典检测技术进行分析,发现一些影响3D目标模型性能的因素,比如:
(1)相比单阶段方法,两阶段方法由于检测头结构的存在,可以保留点云更多空间信息,从而提升模型检测准确率;
(2)选取合适大小的感受野对二阶段特征提取具有积极影响,并非需要对整个点云空间进行采样和特征聚合;
(3)增强点的空间位置编码有利于提升模型性能;
(4)Transformer(即一个利用注意力机制来提高模型训练速度的模型)结构可以更有效地学习点云特征,通过注意力机制计算不同特征对感兴趣区域特征的贡献度。
所以,本发明的方案,提出一种新的3D目标检测方法,具体是提出一种基于原始点云网格注意力机制的两阶段3D目标检测算法,下面对本发明的方案的实现过程进行示例性说明。
根据本发明的实施例,提供了一种3D目标检测方法,如图1所示本发明的方法的一实施例的流程示意图。该3D目标检测方法可以包括:步骤S110至步骤S150。
在步骤S110处,获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据。
在一些实施方式中,步骤S110中获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据,包括:获取由激光雷达采集到的所述目标物的激光点云数据,作为所述目标物的原始三维点云数据。
其中,所述目标物的原始三维点云数据,在X轴方向的取值范围为第一设定范围,在Y轴方向的取值范围为第二设定范围,在Z轴方向的取值范围为第三设定范围。第一设定范围如[0.0m,70.4m],第二设定范围如[-40.0m,40.0m],第三设定范围如[-3.0m,1.0m]。
图8为本发明的一种基于原始点云空间注意力机制的3D目标检测算法的一实施例的流程示意图。在图8中,Point Cloud,即点云。Points of Interests,即感兴趣区域的点云。Proposal to Grid,即将感兴趣区域网格化。Spatial Geometry Features,即空间几何特征。Multi-scale Local Feature,即多尺度局部特征。Detect Head,即检测头。Grid-Wise RoI Pooling,即网格池化。Confidence,即置信度。FFN,即前馈神经网络。BoxRefinement,即框回归。Position Embedding,即位置嵌入。Multi-Head Self-Attention,即多头自注意力。3DVoxel-based Backbone,即3D骨干网络。RPN,即区域建议网络。如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,包括:
步骤1、输入由激光雷达获得的原始三维点云数据。
具体地:获取包含目标物的激光点云数据作为待检测数据,即作为包含目标物的激光点云数据的原始三维点云数据。将包含目标物的激光点云数据的原始三维点云数据,限定点云在X轴方向的取值范围为[0.0m,70.4m]、Y轴方向的取值范围为[-40.0m,40.0m]、Z轴方向的取值范围为[-3.0m,1.0m]。
在步骤S120处,基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域。
在一些实施方式中,步骤S120中基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域的具体过程,参见以下示例性说明。
下面结合图2所示本发明的方法中基于目标物的原始三维点云数据进行体素化、3D稀疏卷积层、以及PRN网络处理的一实施例流程示意图,进一步说明步骤S120中基于目标物的原始三维点云数据进行体素化、3D稀疏卷积层、以及PRN网络处理的具体过程,包括:步骤S210至步骤S230。
步骤S210,基于所述目标物的原始三维点云数据,进行体素化处理,得到所述目标物的原始三维点云数据的三维体素。
步骤S220,基于所述目标物的原始三维点云数据的三维体素,使用4层3D稀疏卷积进行特征提取,得到所述目标物的原始三维点云数据的多个尺度空间特征。
步骤S230,基于所述目标物的原始三维点云数据的多个尺度空间特征,将4层中最后一层的多个尺度空间特征进行视角压缩后,利用区域建议网络进行感兴趣区域提取,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,还包括:
步骤2、对输入的原始三维点云数据,经过体素化和3D稀疏卷积层进行特征提取,输入RPN网络(即区域生成网络)提取感兴趣区域,具体包括以下示例性步骤。
步骤21、基于包含目标物的激光点云数据的原始三维点云数据,对点云进行体素化,得到原始三维点云数据的三维体素。例如:设置X、Y、Z三个方向上的体素块的尺寸分别为0.05m、0.05m和0.1m,三个方向的体素块数量分别为1408、1600和40,设置每个体素内点的数量不超过5个。
步骤22、将原始三维点云数据的三维体素,使用4层3D稀疏卷积进行特征提取,得到点云多个尺度的空间特征。
步骤23、基于点云多个尺度的空间特征,将最后一层空间特征压缩到鸟瞰视角,输入区域建议网络(RPN)提取感兴趣区域。其中,鸟瞰镜头是一种以在天空中飞翔的鸟类视角为镜头视角的摄像位置。
在步骤S130处,基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征。
在一些实施方式中,步骤S130中基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征的具体过程,参见以下示例性说明。
下面结合图3所示本发明的方法中基于目标物的感兴趣区域进行最远点采样和空间网格化处理的一实施例流程示意图,进一步说明步骤S130中基于目标物的感兴趣区域进行最远点采样和空间网格化处理的过程,包括:步骤S310至步骤S340。
步骤S310,基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构。在所述柱形结构的内部,对所述目标物的原始三维点云数据进行最远点采样,得到所述目标物的感兴趣区域中的兴趣点,作为所述目标物的兴趣采样点。
步骤S320,基于所述目标物的感兴趣区域,对所述目标物的感兴趣区域进行均匀网格化,得到所述目标物的多个感兴趣区域网格,作为所述目标物的多个兴趣网格。
步骤S330,确定所述目标物的每个兴趣网格的中心点,并确定所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离。
在一些实施方式中,步骤S330中基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构,包括:基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域设置为圆柱体,将该圆柱体所在柱形结构,作为对所述目标物的感兴趣区域划分后的柱形结构。
步骤S340,基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,包括:
步骤3、接着将感兴趣区域划分为柱形结构,在内部使用原始点云进行最远点采样,得到Points of Interest(即兴趣点),具体包括以下示例性步骤。
步骤31、将感兴趣区域的采样空间设置为圆柱体。具体地,将感兴趣区域的采样空间设置为圆柱体,底部半径r为高h为h=βhr,其中wr、lr、hr分别为感兴趣区域的宽、长和高,α和β为柱体扩张比例参数。图9为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中感兴趣区域采样示意图。如图9所示,感兴趣区域采样得到的采样区域,可以设计为柱形结构。这样,采样区域设计为柱形结构,可以过滤汽车上面物体的点云,比如汽车停在树下,就可以过滤树的点云,有利于保证过滤效果。
步骤32、基于提取到的感兴趣区域,使用最远点采样(Farthest Point Sampling)对每个感兴趣区域进行采样,得到每个感兴趣区域的Points of Interest(即兴趣点)。
其中,最远点采样,是一种非常常用的采样算法,由于能够保证对样本的均匀采样,被广泛使用,像3D点云深度学习框架中的PointNet++对样本点进行FPS采样再聚类作为感受野,3D目标检测网络VoteNet对投票得到的散乱点进行FPS采样再进行聚类,6D位姿估计算法PVN3D中用于选择物体的8个特征点进行投票并计算位姿。
这样,使用最远点采样对感兴趣区域内的点进行采样,充分保留区域内点云形状特征。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,包括:
步骤4、将感兴趣区域划分为均匀的空间网格,取网格中心点对感兴趣区域进行编码,包括多尺度局部空间特征和点云空间坐标编码,在Grid-wise pooling(即网格池化)中将两者进行拼接后进行注意力编码,具体包括以下示例性步骤。
步骤41、对感兴趣区域进行均匀网格化,网格数量设置为6×6×6,则每个感兴趣区域包含216个网格。
步骤42、接着定义每个网格的中心点为gm,其中m为每个感兴趣区域内的网格数量,计算每个网格中心点gm到采样点pi的相对距离Δdi:
Δdi=gm-pi,m∈[1,216],i=[1,256]。
在一些实施方式中,步骤S340中基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征的具体过程,参见以下示例性说明。
下面结合图4所示本发明的方法中基于每个兴趣网格的中心点与目标物的兴趣采样点之间的相对距离确定所有兴趣网格的中心点的局部特征的一实施例流程示意图,进一步说明步骤S340中基于每个兴趣网格的中心点与目标物的兴趣采样点之间的相对距离确定所有兴趣网格的中心点的局部特征的具体过程,包括:步骤S410至步骤S440。
步骤S410,基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征。
在一些实施方式中,步骤S410中基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征,包括:基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,按以下公式计算,得到所述目标物的每个兴趣网格的中心点的位置特征:
fd=g([Δd(i,1),Δd(i,2),...,Δd(i,m)])。
Δd(i,m)={Δxi,m,Δyi,m,Δzi,m,Δfi,m}。
其中,fd是所述目标物的每个兴趣网格的中心点的位置特征,g(g)为使用前馈神经网络将所述相对距离的特征映射到高维特征空间的特征变换函数,Δxi,m,Δyi,m和Δzi,m为所述目标物的兴趣采样点距离所述目标物的每个兴趣网格的中心点的相对距离,Δfi,m为所述目标物的兴趣采样点的额外特征。
具体地,参见图8所示的例子,每个网格中心点gm的位置特征fd,计算如下:
fd=g([Δd(i,1),Δd(i,2),...,Δd(i,m)])。
Δd(i,m)={Δxi,m,Δyi,m,Δzi,m,Δfi,m}。
其中,g(g)为特征变换函数,这里使用前馈神经网络(Feed Forward Network,FFN)将距离特征映射到高维特征空间。Δxi,m,Δyi,m和Δzi,m为点pi距离每个网格中心点的欧式距离,Δfi,m为点的额外特征。
步骤S420,基于所述目标物的每个兴趣网格的中心点的位置特征,对所述目标物的每个兴趣网格的中心点进行升维处理,得到所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合。
步骤S430,基于所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合,通过改变所述设定球形区域所属球体的半径大小,获取所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合。
步骤S440,基于所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合,对不同半径尺度上的特征进行拼接,得到所述目标物的所有兴趣网格的中心点的局部特征。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,还包括:
步骤43、使用每个网格中心点gm到采样点pi的相对距离Δdi对网格点的空间位置进行显式建模,统一位置编码坐标尺度,最后得到每个网格中心点gm的位置特征fd。
其中k为该半径内点的数量,如图12所示。图12为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中网格注意力特征加权示意图,其中,(a)为网格化的感兴趣区域示意图,(b)为经过注意力计算后,不同网格具有不同的特征权重示意图。如图12所示为网格注意力特征加权示意图,表示不同网格点对感兴趣区域特征的贡献程度不同。在本发明的方案中,通过注意力机制对网格点特征进行建模,充分考虑网格点对目标特征的贡献度,从而提取更复杂的点云空间特征。
其中,G为聚合函数,这里使用向量拼接的方式进行处理。聚合函数G用来将多头注意力特征进行拼接。图10为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中多尺度空间特征聚合示意图。如图10所示,网格中心点聚合的多尺度局部特征中,在多个半径内对点进行特征聚合。在本发明的方案中,通过将点云空间划分为均匀网格,使用网格中心点来进行点云特征表示,有利于提高对遮挡情况的检测准确率。
步骤45、接着通过改变球的半径大小,获得中心点在不同尺度上特征表达。
步骤46、最后将多尺度特征进行拼接,得到最终的中心点局部特征fg:
在本发明的方案中,在二阶段对点云进行采样和多尺度局部特征聚合,保留目标的空间信息,避免在原始点云场景中进行复杂特征提取带来检测效率低下的问题。从而,解决了一些方案中基于原始点云的三维目标检测算法二阶段细化没有充分利用点的局部特征和上下文依赖关系,对遮挡目标检测效果差,从而影响检测准确率的问题。
在步骤S140处,基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征。
在一些实施方式中,步骤S140中基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征的具体过程,参见以下示例性说明。
下面结合图5所示本发明的方法中基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理的一实施例流程示意图,进一步说明步骤S140中基于目标物的中心点局部特征进行坐标升维和特征加和处理的具体过程,包括:步骤S510至步骤S540。
步骤S510,所述目标物的中心点局部特征,包含了所述目标物的中心点坐标。基于所述目标物的中心点局部特征,使用3层前馈神经网络对所述目标物的中心点坐标进行升维,并通过最大池化函数对所述目标物的中心点局部特征的不同半径尺度特征进行聚合。
步骤S520,使用前馈神经网络,调整经所述升维和所述聚合后的所述目标物的中心点局部特征的维度,将所述目标物的中心点局部特征的位置编码特征和不同半径尺度局部特征进行加和,得到所述目标物的所有感兴趣网格的中心点特征。
步骤S530,基于所述目标物的感兴趣网格的中心点特征,利用注意力机制捕获所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点之间的依赖关系,根据该依赖关系对所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点特征分配对应的权重,以得到所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系。
步骤S540,基于所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系,使用多头注意力机制,确定所述目标物的感兴趣区域特征。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,包括:
步骤5、最后为了强化空间信息,使用残差结构,将坐标升维到高维空间和注意力特征做加和,得到最后的感兴趣区域特征,具体包括以下示例性步骤。
步骤51、使用3层FFN对聚合后的坐标进行升维,通过最大池化函数对各尺度特征进行聚合。FFN用来对特征进行维度变换。
步骤52、最后,使用FFN调整最终的中心点局部特征fg的维度,将位置编码特征和多尺度局部特征进行加和,得到最终的网格中心点特征fgrid:
fgrid=ReLU(fd+FFN(fg))。
步骤53、使用注意力机制来捕获网格点之间的远程依赖关系,为网格点特征分配不同的权重,从而能够捕获网格点特征和感兴趣区域之间更复杂的关系,输入特征fG=[fgrid 1,fgrid 2,...,fgrid i],i∈[1,n],且fgrid i≠0。fgrid i表示网格中心点局部特征,这里是指网格点聚合周围的点得到的特征。空的网格特征不参与注意力编码,仅保留其位置编码。这里使用网格中心点原始坐标特征fpos作为位置编码:
fpos=g(pi grid),i∈[1,m]。pi grid)表示网格中心点位置特征,这里是指用网格中心点坐标算出来的特征。图11为本发明的一种基于原始点云空间注意力机制的3D目标检测算法中点特征编码示意图。图11中为网格中心点坐标编码,使用采样点对网格点坐标进行空间信息增强。在本发明的方案中,发现对点坐标的特征强化对提高检测准确率具有积极影响,从而设计了一种新的点云坐标强化方法。
步骤54、使用多头注意力机制来捕获更丰富的感兴趣区域特征,多头注意力特征Ai grid计算方式如下:
Fi=fi grid+fi pos;
Ki=Wk e Fi;
Qi=Wqe Fi;
Vi=Wv e Fi;
Ai grid=FFN(G(Ai·Vi))。
其中,Ai为注意力系数,Vi为上面算出来的特征Fi乘了一个线性变化的矩阵。Ki、Qi、Vi的计算是通用的计算方式,dq为特征Fi的维度数量。
步骤55、在网格空间位置编码和注意力编码间建立类似残差结构的通道,将点的空间位置编码与注意力特征进行拼接,丰富特征的表达能力,经过FFN处理后,得到最终的感兴趣区域特征fi:
fi=FFN(ReLU(Ai gird+fi d))。
在步骤S150处,基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。
本发明的方案提出的一种基于原始点云网格注意力机制的两阶段3D目标检测算法,通过扩大感受野(Receptive Field),聚合多尺度局部特征,对点坐标进行精细建模,充分保留点的空间信息,并考虑网格点与感兴趣区域之间的复杂关系以提升检测准确率。其中,感受野,是卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小。从而,解决了在相关方案的3D目标检测中,基于体素的3D目标检测方法的位置检测精确性差,而基于点的3D目标检测方法的检测效率低,使得相关方案的3D目标检测的检测效果较差的问题。
在一些实施方式中,步骤S160中基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测的具体过程,参见以下示例性说明。
下面结合图6所示本发明的方法中基于目标物的感兴趣区域特征进行所述目标物的目标类别预测和框位置回归处理的一实施例流程示意图,进一步说明步骤S160中基于目标物的感兴趣区域特征进行所述目标物的目标类别预测和框位置回归处理的具体过程,包括:步骤S610至步骤S620。
步骤S610,基于所述目标物的感兴趣区域特征,将所述目标物的感兴趣区域特征输入预设的检测头,进行所述目标物的3D目标检测框的分类和回归处理,确定所述目标物的3D目标检测框所在检测模型损失。
步骤S620,所述目标物的3D目标检测框所在检测模型损失是变动的,当然所述目标物的3D目标检测框所在检测模型损失越小越好。随着所述目标物的3D目标检测框所在检测模型损失的降低,确定所述目标物的3D目标检测框,实现对所述目标物的3D目标检测。
其中,所述目标物的3D目标检测框所在检测模型损失,包括:区域建议网络损失和细化阶段损失。所述区域建议网络损失,包括:所述目标物的3D目标检测框的置信度损失,以及所述目标物的3D目标检测框的位置回归损失。
如图8所示,本发明的方案提供的一种基于原始点云空间注意力机制的3D目标检测算法的实现流程,包括:
步骤6、使用最后的感兴趣区域特征进行目标类别预测和框位置回归,具体包括以下示例性步骤。
步骤61、将最终的感兴趣区域特征fi输入检测头进行框的分类和回归。
步骤62、模型的损失分为区域建议网络损失Lrpn和细化阶段损失Lrcnn两部分,其中Lrpn包括框的置信度损失Lcls和位置回归损失Lreg。
θ*=θg-θr。
步骤63、对于区域建议网络损失Lrpn,使用Focal Loss(即焦点损失函数)计算置信度损失Lcls,以平衡正、负样本对损失的贡献程度:
步骤63、框的位置回归损失Lreg,使用Smooth-L1损失函数(即平滑-L1损失函数)计算:
步骤64、最后得到总的区域建议网络损失Lrpn损失:
Lrpn=β1Lcls+β2Lreg。
其中,β1和β2为损失的权重系数,用于平衡分类和回归对Lrpn的贡献程度。
同理,细化阶段损失Lrcnn的计算方式和区域建议网络损失Lrpn类似,最后得到模型总损失Lloss如下:
Lloss=Lrpn+Lrcnn。
为了验证本发明的方案提出的基于原始点云空间注意力机制的3D目标检测算法的有效性,使用公开的自动驾驶数据集KITTI对其进行验证,并进行了充分的消融实验,分别在验证集和测试集中对简单、中等和困难三个难度等级的目标进行实验,使用平均准确率(AP)衡量模型性能。
图13为本发明的一种基于原始点云空间注意力机制的3D目标检测算法的一实施例的多个场景下的检测效果示意图,其中,(a)为第一场景下的检测效果示意图,(b)为第二场景下的检测效果示意图,(c)为第三场景下的检测效果示意图。图13为本发明的方案算法实际检测效果,使用KITTI自动驾驶数据集进行测试。
图14为本发明的一种基于原始点云空间注意力机制的3D目标检测算法与相关方案中其他算法的检测效果对比示意图,其中,(a)为SECOND算法(即一种基于三维点云的目标检测算法)的检测效果示意图,(b)为PointPillars算法(即一种激光点云3D目标检测算法)的检测效果示意图,(c)为基于原始点云空间注意力机制的3D目标检测算法的检测效果示意图。图14为本发明的方案算法与其他主流经典算法的检测效果对比,从可视化结果可以看出,SECOND算法和PointPillar算法存在不同程度的误检,例如BEV视角下左侧墙壁点云较为复杂,使SECOND算法和PointPillar算法将其误检为汽车,而本发明的方案算法表现出了较好的鲁棒性,对于复杂目标的误识别率较低,取得了不错的实验效果。
本发明的方案,在原始点云场景中,能够有效提升对于遮挡等难检测目标的检测效果。经将本发明的方案所提出的基于原始点云网格注意力机制的两阶段3D目标检测算法的模型,在公开的3D目标检测数据集KITTI上进行实验,结果表明,本发明的方案所提出的模型相比其他已公开的基于点云的3D目标检测算法检测准确率提升明显。另外,基于本发明的方案所提出的基于原始点云网格注意力机制的两阶段3D目标检测算法,经KITTI官方测试集进行公开测试,取得了具有竞争力的检测效果。
其中,KITTI是相关方案中的自动驾驶公开数据集,是自动驾驶领域最重要的数据集之一,包含市区、乡村和高速公路等场景采集的真实图像和点云数据。数据集包含7481个训练样本和7518个测试样本,具体可以参见表1和表2中展示的部分实验数据。
表1在KITTI测试集上对汽车的检测性能与最先进的方法进行性能比较,所有结果均以0.7IoU阈值和R40召回位置的平均准确率计算
表2在KITTI验证集上对汽车的检测性能与最先进的方法进行性能比较,所有结果均以0.7IoU阈值和R11召回位置的平均准确率计算
采用本实施例的技术方案,通过获取包含目标物的激光点云数据作为原始三维点云数据,对原始三维点云数据进行体素化和3D稀疏卷积层处理后提取感兴趣区域,基于感兴趣区域进行最远点采样和空间网格编码处理得到感兴趣特征点,进而使用该感兴趣区域特征进行目标类别预测和框位置回归,实现对目标物的3D目标检测,从而,通过设置基于原始点云网格注意力机制的两阶段3D目标检测算法,能够提高3D目标检测的位置检测精确性和检测效率,有利于提升3D目标检测的检测效果。
根据本发明的实施例,还提供了对应于3D目标检测方法的一种3D目标检测装置。参见图7所示本发明的装置的一实施例的结构示意图。该3D目标检测装置可以包括:获取单元和检测单元。
其中,获取单元102,被配置为获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据。该获取单元102的具体功能及处理参见步骤S110,在此不再赘述。
检测单元104,被配置为基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域。该检测单元104的具体功能及处理参见步骤S120,在此不再赘述。
所述检测单元104,还被配置为基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征。该检测单元104的具体功能及处理还参见步骤S130,在此不再赘述。
所述检测单元104,还被配置为基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征。该检测单元104的具体功能及处理还参见步骤S140,在此不再赘述。
所述检测单元104,还被配置为基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。该检测单元104的具体功能及处理还参见步骤S150,在此不再赘述。
本发明的方案提出的一种基于原始点云网格注意力机制的两阶段3D目标检测装置,通过扩大感受野(Receptive Field),聚合多尺度局部特征,对点坐标进行精细建模,充分保留点的空间信息,并考虑网格点与感兴趣区域之间的复杂关系以提升检测准确率。其中,感受野,是卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小。从而,解决了在相关方案的3D目标检测中,基于体素的3D目标检测方法的位置检测精确性差,而基于点的3D目标检测方法的检测效率低,使得相关方案的3D目标检测的检测效果较差的问题。
由于本实施例的装置所实现的处理及功能基本相应于前述方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
采用本发明的技术方案,通过获取包含目标物的激光点云数据作为原始三维点云数据,对原始三维点云数据进行体素化和3D稀疏卷积层处理后提取感
兴趣区域,基于感兴趣区域进行最远点采样和空间网格编码处理得到感兴趣特征点,进而使用该感兴趣区域特征进行目标类别预测和框位置回归,实现对目标物的3D目标检测,解决了基于体素的3D目标检测方法的位置检测精确性差、以及基于点的3D目标检测方法的检测效率低的问题,检测准确性好、且检测速度快。
根据本发明的实施例,还提供了对应于3D目标检测装置的一种终端。该终端可以包括:以上所述的3D目标检测装置。
由于本实施例的终端所实现的处理及功能基本相应于前述装置的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
采用本发明的技术方案,通过获取包含目标物的激光点云数据作为原始三维点云数据,对原始三维点云数据进行体素化和3D稀疏卷积层处理后提取感兴趣区域,基于感兴趣区域进行最远点采样和空间网格编码处理得到感兴趣特征点,进而使用该感兴趣区域特征进行目标类别预测和框位置回归,实现对目标物的3D目标检测,检测准确率高、且检测过程相对简单。
根据本发明的实施例,还提供了对应于3D目标检测方法的一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以上所述的3D目标检测方法。
由于本实施例的存储介质所实现的处理及功能基本相应于前述方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
采用本发明的技术方案,通过获取包含目标物的激光点云数据作为原始三维点云数据,对原始三维点云数据进行体素化和3D稀疏卷积层处理后提取感兴趣区域,基于感兴趣区域进行最远点采样和空间网格编码处理得到感兴趣特征点,进而使用该感兴趣区域特征进行目标类别预测和框位置回归,实现对目标物的3D目标检测,对于复杂目标的误识别率较低,且识别效率高。
综上,本领域技术人员容易理解的是,在不冲突的前提下,上述各有利方式可以自由地组合、叠加。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种3D目标检测方法,其特征在于,包括:
获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据;
基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域;
基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征;
基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征;
基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。
2.根据权利要求1所述的3D目标检测方法,其特征在于,其中,
获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据,包括:
获取由激光雷达采集到的所述目标物的激光点云数据,作为所述目标物的原始三维点云数据;
其中,所述目标物的原始三维点云数据,在X轴方向的取值范围为第一设定范围,在Y轴方向的取值范围为第二设定范围,在Z轴方向的取值范围为第三设定范围;
和/或,
基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域,包括:
基于所述目标物的原始三维点云数据,进行体素化处理,得到所述目标物的原始三维点云数据的三维体素;
基于所述目标物的原始三维点云数据的三维体素,使用4层3D稀疏卷积进行特征提取,得到所述目标物的原始三维点云数据的多个尺度空间特征;
基于所述目标物的原始三维点云数据的多个尺度空间特征,将4层中最后一层的多个尺度空间特征进行视角压缩后,利用区域建议网络进行感兴趣区域提取,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域。
3.根据权利要求1所述的3D目标检测方法,其特征在于,基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征,包括:
基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构;在所述柱形结构的内部,对所述目标物的原始三维点云数据进行最远点采样,得到所述目标物的感兴趣区域中的兴趣点,作为所述目标物的兴趣采样点;
基于所述目标物的感兴趣区域,对所述目标物的感兴趣区域进行均匀网格化,得到所述目标物的多个感兴趣区域网格,作为所述目标物的多个兴趣网格;
确定所述目标物的每个兴趣网格的中心点,并确定所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离;
基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征。
4.根据权利要求3所述的3D目标检测方法,其特征在于,其中,
基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域划分为柱形结构,包括:
基于所述目标物的感兴趣区域,将所述目标物的感兴趣区域设置为圆柱体,将该圆柱体所在柱形结构,作为对所述目标物的感兴趣区域划分后的柱形结构;
和/或,
基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,确定所述目标物的所有兴趣网格的中心点的局部特征,包括:
基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征;
基于所述目标物的每个兴趣网格的中心点的位置特征,对所述目标物的每个兴趣网格的中心点进行升维处理,得到所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合;
基于所述目标物的所有兴趣网格的中心点在设定球形区域中设定半径内的位置特征集合,通过改变所述设定球形区域所属球体的半径大小,获取所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合;
基于所述目标物的所有兴趣网格的中心点在不同半径尺度上的特征表达集合,对不同半径尺度上的特征进行拼接,得到所述目标物的所有兴趣网格的中心点的局部特征。
5.根据权利要求4所述的3D目标检测方法,其特征在于,基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,对所述目标物的相应兴趣网格的空间位置进行建模和统一位置编码坐标尺度处理,得到所述目标物的每个兴趣网格的中心点的位置特征,包括:
基于所述目标物的每个兴趣网格的中心点、以及所述目标物的兴趣采样点之间的相对距离,按以下公式计算,得到所述目标物的每个兴趣网格的中心点的位置特征:
fd=g([Δd(i,1),Δd(i,2),...,Δd(i,m)]);
Δd(i,m)={Δxi,m,Δyi,m,Δzi,m,Δfi,m};
其中,fd是所述目标物的每个兴趣网格的中心点的位置特征,g(g)为使用前馈神经网络将所述相对距离的特征映射到高维特征空间的特征变换函数,Δxi,m,Δyi,m和Δzi,m为所述目标物的兴趣采样点距离所述目标物的每个兴趣网格的中心点的相对距离,Δfi,m为所述目标物的兴趣采样点的额外特征。
6.根据权利要求1所述的3D目标检测方法,其特征在于,基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征,包括:
基于所述目标物的中心点局部特征,使用3层前馈神经网络对所述目标物的中心点坐标进行升维,并通过最大池化函数对所述目标物的中心点局部特征的不同半径尺度特征进行聚合;
使用前馈神经网络,调整经所述升维和所述聚合后的所述目标物的中心点局部特征的维度,将所述目标物的中心点局部特征的位置编码特征和不同半径尺度局部特征进行加和,得到所述目标物的所有感兴趣网格的中心点特征;
基于所述目标物的感兴趣网格的中心点特征,利用注意力机制捕获所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点之间的依赖关系,根据该依赖关系对所述目标物的所有感兴趣网格的中心点中不同感兴趣网格的中心点特征分配对应的权重,以得到所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系;
基于所述目标物的所有感兴趣网格的中心点特征与所述目标物的感兴趣区域之间的关联关系,使用多头注意力机制,确定所述目标物的感兴趣区域特征。
7.根据权利要求1至6中任一项所述的3D目标检测方法,其特征在于,基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测,包括:
基于所述目标物的感兴趣区域特征,将所述目标物的感兴趣区域特征输入预设的检测头,进行所述目标物的3D目标检测框的分类和回归处理,确定所述目标物的3D目标检测框所在检测模型损失;
随着所述目标物的3D目标检测框所在检测模型损失的降低,确定所述目标物的3D目标检测框,实现对所述目标物的3D目标检测;
其中,所述目标物的3D目标检测框所在检测模型损失,包括:区域建议网络损失和细化阶段损失;所述区域建议网络损失,包括:所述目标物的3D目标检测框的置信度损失,以及所述目标物的3D目标检测框的位置回归损失。
8.一种3D目标检测装置,其特征在于,包括:
获取单元,被配置为获取包含目标物的激光点云数据,作为所述目标物的原始三维点云数据;
检测单元,被配置为基于所述目标物的原始三维点云数据,进行体素化、3D稀疏卷积层、以及PRN网络处理,得到所述目标物的原始三维点云数据中的感兴趣区域,作为所述目标物的感兴趣区域;
所述检测单元,还被配置为基于所述目标物的感兴趣区域,进行最远点采样和空间网格化处理,得到所述目标物的中心点局部特征;
所述检测单元,还被配置为基于所述目标物的中心点局部特征,进行坐标升维和特征加和处理,得到所述目标物的感兴趣区域特征;
所述检测单元,还被配置为基于所述目标物的感兴趣区域特征,进行所述目标物的目标类别预测和框位置回归处理,实现对所述目标物的3D目标检测。
9.一种终端,其特征在于,包括:如权利要求8所述的3D目标检测装置。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任一项所述的3D目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967172.0A CN115311653A (zh) | 2022-08-12 | 2022-08-12 | 一种3d目标检测方法、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967172.0A CN115311653A (zh) | 2022-08-12 | 2022-08-12 | 一种3d目标检测方法、装置、终端和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115311653A true CN115311653A (zh) | 2022-11-08 |
Family
ID=83862096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210967172.0A Pending CN115311653A (zh) | 2022-08-12 | 2022-08-12 | 一种3d目标检测方法、装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115311653A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058472A (zh) * | 2023-10-12 | 2023-11-14 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
-
2022
- 2022-08-12 CN CN202210967172.0A patent/CN115311653A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058472A (zh) * | 2023-10-12 | 2023-11-14 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
CN117058472B (zh) * | 2023-10-12 | 2024-02-20 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410307B (zh) | 一种场景点云语义分割方法 | |
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
CN107742102B (zh) | 一种基于深度传感器的手势识别方法 | |
CN111832655A (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111028327A (zh) | 一种三维点云的处理方法、装置及设备 | |
CN110569926B (zh) | 一种基于局部边缘特征增强的点云分类方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
JP2019185787A (ja) | 地理的地域内のコンテナのリモート決定 | |
Zhang et al. | PSNet: Perspective-sensitive convolutional network for object detection | |
CN116310098A (zh) | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 | |
CN115661611A (zh) | 一种基于改进Yolov5网络的红外小目标检测方法 | |
CN115115601A (zh) | 一种基于形变注意金字塔的遥感舰船目标检测方法 | |
CN115311653A (zh) | 一种3d目标检测方法、装置、终端和存储介质 | |
CN115393601A (zh) | 一种基于点云数据的三维目标检测方法 | |
Gomez-Donoso et al. | Three-dimensional reconstruction using SFM for actual pedestrian classification | |
CN107358625B (zh) | 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法 | |
CN113496260A (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN117475428A (zh) | 一种三维目标检测方法、系统及设备 | |
CN117011274A (zh) | 自动化玻璃瓶检测系统及其方法 | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
Shi et al. | City-scale continual neural semantic mapping with three-layer sampling and panoptic representation | |
Cao et al. | Inspherenet: a concise representation and classification method for 3d object | |
CN116206302A (zh) | 三维目标检测方法、装置、计算机设备和存储介质 | |
CN113780240B (zh) | 基于神经网络及旋转特征增强的物体位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |