CN115424225A - 一种面向自动驾驶系统的三维实时目标检测方法 - Google Patents
一种面向自动驾驶系统的三维实时目标检测方法 Download PDFInfo
- Publication number
- CN115424225A CN115424225A CN202211008250.0A CN202211008250A CN115424225A CN 115424225 A CN115424225 A CN 115424225A CN 202211008250 A CN202211008250 A CN 202211008250A CN 115424225 A CN115424225 A CN 115424225A
- Authority
- CN
- China
- Prior art keywords
- voxel
- point
- sampling
- feature
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000005070 sampling Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000000750 progressive effect Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 22
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向自动驾驶系统的三维实时目标检测方法包括:利用数据增强策略对点云数据进行预处理,将点云数据体素化;利用三维稀疏卷积网络获取多倍下采样特征,将八倍下采样的体素特征转换成二维鸟瞰图特征,通过基于锚点的方法生成提案框;利用三层渐进下采样方案采样出少量前景点作为关键点;对特征和关键点进行体素集合抽象操作以获取最终关键点特征;调整关键点权重,赋予前景点更高权重;将提案框和带特征的关键点作为输入以完善提议框并获取置信度预测。本发明使用融合点和体素检测方法,实现高检测精度和相对高的检测速度;利用三层渐进下采样采集更少关键点的同时保证前景点数量;调整权重以提升前景点作用,提高小物体检测精度。
Description
技术领域
本发明涉及目标检测技术领域,具体为一种面向自动驾驶系统的三维实 时目标检测方法。
背景技术
目标检测是计算机视觉中的一个基础任务,图像分割、物体追踪等都要 依赖目标检测。目标检测在很多方面发挥重要作用,其中就包括自动驾驶技 术:在自动驾驶场景下对行人、车辆、交通标志等目标的识别,为自动驾驶 车辆上路提供丰富信息,保证行车安全。
目标检测技术从2001年开始发展,2012年是这项技术的分水岭,因为这 一年开发出了基于深度学习的目标检测技术,卷积神经网络的应用使得目标 检测的效果大大提升。由于高质量雷达图的成本昂贵以及点云数据处理的高 复杂度,二维目标检测是最开始探索的主流,但是二维图像受到天气、光照、 角度等复杂环境影响过大,在恶劣天气下很难保持高检测精度,并且近年来 传感器技术高速发展,对点云数据处理方法也有了更进一步的探索,三维目 标检测以可以适应大多数环境的高检测精度的优点逐渐成为主流。
虽然三维目标检测已经有了一定的成果,但是各种种类的方法都有一定 的缺点无法满足自动驾驶对感知模块的高精准度、高速度和低内存的要求。 基于点的方法因为要处理稀疏的点云所以检测速度较慢,基于体素的方法将 点云数据有序存储成体素,增加了运算的效率,但是会带来不可避免的信息 损失,检测精度不高。融合点和体素表示的方法会比单一的方法有效率或者 速度上的提高,但是无法达到实时高精度的效果。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较 佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化 或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或 省略不能用于限制本发明的范围。
鉴于上述存在的问题,提出了本发明。
因此,本发明解决的技术问题是:如何高质量从点云数据中提取目标特 征,以提高目标检测的准确度和速度。
为解决上述技术问题,本发明提供如下技术方案:一种面向自动驾驶系 统的三维实时目标检测方法,包括:
利用数据增强策略对点云数据进行预处理,将点云数据体素化;
利用三维稀疏卷积网络获取多倍下采样特征,将八倍下采样的体素特征 转换成二维鸟瞰图特征,并通过基于锚点的方法生成提案框;
利用三层渐进下采样方案采样出少量前景点作为关键点;
对所述特征和关键点进行体素集合抽象操作以获取最终关键点特征;
调整所述关键点权重,赋予前景点更高权重;
将所述提案框和带特征的关键点作为输入以完善提案框并获取置信度预 测。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述数据增强策略,包括:
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述将点云数据体素化,包括:
将超过设定边框的点移除,并且将点进行初步的体素化操作,每个体素 的长宽高分别是[0.05,0.05,0.1];每个点云的特征维度是4;每个体素中最大的 采样点数为5;训练和推理时分别最大选取16000,40000个非空体素。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述利用三维稀疏卷积网络获取多倍下采样特征,包括:
所使用的主干网络为子流形稀疏卷积和空间稀疏卷积组成的稀疏卷积网 络,将经体素化处理后获得的体素进行1×2×4×8×下采样,并保存采样结 果。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述三层渐进下采样方案,包括:前两层使用D-FPS采 样策略即:距离最远采样策略,最后一层使用实例感知采样策略;同时在编 码层增加两个多层感知机MLP层用于进一步估计每个点的语义类别,进而使 用实例感知采样策略进行采样。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:提出一种中心感知下采样策略,计算提案框中点的权值 Mask,并基于权值Mask和普通的交叉熵损失设置损失函数;
其中,f*,b*,l*,r*,u*,d*表示一个点到包围盒的六个面的距离, Maski为点i的权值;
损失函数表示为:
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述进行体素集合抽象操作以获取最终关键点特征,包 括:
在三维体素下采样三维体素下采样模块中得到1x,2x,4x,8x的体素特 征,体素集合抽象在这4个尺度上进行集合抽象操作,获取4个尺度的体素 编码特征;
体素集合抽象操作具体的公式表述为:
fi (pv)=fi (pv1)+fi (pv2)+fi (pv3)+fi (pv4)
其中,fi (pv)指的是体素下采样综合出的特征,fi (pv1)指的是体素下采样 1x的特征,fi (pv2)指的是体素下采样2x的特征,fi (pv3)指的是体素下采样4x 的特征,fi (pv4)指的是体素下采样8x的特征;
在体素下采样综合出的特征中加入原始点的集合抽象特征和来自八倍下 采样堆叠得到的鸟瞰图双线插值特征,来获取最终关键点特征;
fi (p)=[fi (pv)+fi (raw)+fi (bev)],for i=1,...,n.
其中,fi (p)表示最终获得的关键点i特征,fi (pv)表示关键点i通过体素下采 样综合出的特征,fi (raw)表示关键点i的原始点特征,fi (bev)表示关键点i的鸟 瞰图特征。
其中,A(·)是一个三层的多层感知机,fi (p)表示最终获得的关键点i特征。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述置信度预测,表示为:
yk=min(1,max(0,2IoUk-0.5))
其中,IoUk表示为第k个提案框预测区域与训练集标注区域两个区域的重 叠部分占两者总面积的比例。
作为本发明所述的一种面向自动驾驶系统的三维实时目标检测方法的一 种优选方案,其中:所述提案框优化,包括:使用交叉熵损失函数来进行提 案框优化,表示为:
本发明的有益效果:本发明属于二阶段目标检测算法,使用了融合点和 体素的检测方法,在保证高检测精度的同时还保证了相对高的检测速度,满 足了自动驾驶场景的实际需求;通过提出三层的渐进下采样方案实现了在采 集更少关键点的情况下保证前景点的数量;通过采样方案和关键点权重预测 模块,加大了前景点在检测中发挥的作用,提高了小物体检测的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种面向自动驾驶系统的三维实时目标检 测方法的流程示意图;
图2为本发明一个实施例提供的一种面向自动驾驶系统的三维实时目标检 测方法中稀疏卷积网络的模型示意图;
图3为本发明一个实施例提供的一种面向自动驾驶系统的三维实时目标检 测方法中PWK调整关键点权重模块示意图;
图4为本发明一个实施例提供的实验对象为汽车的检测效果图;
图5为本发明一个实施例提供的实验对象为行人的检测效果图;
图6为本发明一个实施例提供的实验对象为骑自行车的人的检测效果图;
图7为本发明一个实施例提供的各方法下所能达到的最快的检测速度示意 图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明 书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发 明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普 通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于 本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发 明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以 在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体 实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少 一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在 一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施 例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明, 表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例, 其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及 深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等 指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述 本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、 以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第 一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广 义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械 连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件 内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在 本发明中的具体含义。
实施例1
参照图1~3,为本发明的一个实施例,提供了一种面向自动驾驶系统的 三维实时目标检测方法,包括:
S1:利用数据增强策略对点云数据进行预处理,将点云数据体素化。
进一步的,运用两种数据增强策略对点云数据进行预处理,使其能够适 配网络模型。
需要知道的是,两种数据增强策略为:场景级增强和对象级增强,包含 将场景绕z轴旋转,随机值为[-π/4,π/4];对场景进行随机缩放,随机因子为 [0.95,1.05]。
应说明的是,数据集无法完全模拟真实路况,并且数据集数量不足,为 此设计了上述数据增强,对图像进行翻转、旋转等操作,增强模型的泛化能 力。
更进一步的,将超过设定边框的点移除,将点进行初步的体素化操作。
需要知道的是,体素化操作的具体内容包括:每个体素的长宽高分别是[0.05,0.05,0.1];每个点云的特征维度是4;每个体素中最大的采样点数为5; 训练和推理时分别最大选取16000,40000个非空voxel。
应说明的是,进行体素化操作的目的是为了方便后续三维稀疏卷积操作, 提高模型检测速度。
S2:利用三维稀疏卷积网络获取多倍下采样特征,将八倍下采样的体素 特征转换成二维鸟瞰图特征,并通过基于锚点的方法生成提案框。
进一步的,将经过数据增强和体素化操作后的体素接入空间稀疏卷积和 子流形稀疏卷积组成的稀疏卷积网络,在三维体素下采样模块进行1×、2×、 4×、8×下采样,并将采样结果进行保存。
需要知道的是,每个层次上得到的稀疏三维特征体都是一组体素特征向 量。
更进一步的,将八倍下采样获取的三维特征体转换成二维的鸟瞰图。
更进一步的,使用基于锚点的方法生成初步的提案框。
应说明的是,锚点生成具体为:使用数据集中类别的平均长宽高作为锚 点的大小,同时每个类别的锚点都有两个角度为0度和90度,分别为车 [3.9,1.6,1.56],锚点中心在Z轴的-1米;人[0.8,0.6,1.73],锚点中心在Z轴的-0.6 米;自行车[1.76,0.6,1.73],锚点的中心在Z轴的-0.6米;类别预测、方向分类 以及box回归分别通过一个1*1的卷积进行预测。
S3:利用三层渐进下采样方案采样出少量前景点作为关键点。
需要知道的是,三层渐进下采样方案具体为:前两层使用D-FPS采样, 分别采样4096个点和1024个点,特征分别为64个和128个,最后一层使用 实例感知采样,Grouping半径为[1.6,4.8],下采样出512个点具有256个特征 作为采集的关键点。
应说明的是,之所以采用上述三层渐进下采样方案的原因为:首先,在 早期编码层采用提出的实例感知采样策略会由于早期的潜在点特征中的语义 信息不足,导致对最后的检测性能产生负面影响;其次,使用具有递增半径 的多尺度分组,可以在不花费太多时间的前提下稳定地提取局部几何特征。
更进一步的,在编码层上增加两个MLP层用于进一步估计每个点的语义 类别。
应说明的是,类别感知采样策略旨在通过学习每个点的语义特征,来实 现选择性下采样;增加两个MLP层是为了充分利用语义信息,从而进行语义 类别的估计。
更进一步的,利用原始边界框标注生成的逐点语义标签进行监督。
更进一步的,采用中心感知下采样策略,使得靠近质心的点具有更高的 权值,其中权值的计算公式表示为:
其中,f*,b*,l*,r*,u*,d*表示一个点到包围盒的六个面的距离, Maski为点i的权值。
应说明的是,基于锚点的方法所生成的提案框有一个特征,具体为:靠 近提案框中心的前景点的特征更加鲜明;虽然对于汽车这种检测鲁棒性较强 的大物体影响不大,但是对于行人这种小物体,缺失一个靠近提案框中心的 前景点就可能导致检测效果大大降低;因此,本发明提出一种中心感知下采 样策略,使得靠近质心的点具有更高的权值,进而提升对小物体的检测效果。
更进一步的,损失函数上使用考虑与质心距离的交叉熵损失,进而将几 何信息纳入训练过程中,其中,损失函数表示为:
更进一步的,在推理过程中,得分比较高的前k个点会被选入下一层编 码层进行操作,其中采样点数量k由采样层的设置决定。
S4:对所述特征和关键点进行体素集合抽象操作以获取最终关键点特征。
应说明的是,体素集合抽象操作是在现有的PointNet++提出的SA操作 的基础上将操作对象从原始点云中的点更改为体素特征。
更进一步的,体素集合抽象会在1x,2x,4x,8x这4个尺度上进行集合 抽象操作,进而获得4个尺度的体素编码特征;
用fi (pv)来表示体素下采样综合出的特征,表示为:
fi (pv)=fi (pv1)+fi (pv2)+fi (pv3)+fi (pv4)
其中,fi (pv)指的是体素下采样综合出的特征,fi (pv1)指的是体素下采样 1x的特征,fi (pv2)指的是体素下采样2x的特征,fi (pv3)指的是体素下采样4x 的特征,fi (pv4)指的是体素下采样8x的特征。
更进一步的,在体素下采样综合出的特征中加入原始点的集合抽象特征 和八倍下采样堆叠得到的鸟瞰图双线插值特征,获取最终的关键点体素特征;
用fi (p)来表示最终获得的体素特征,表示为:
fi (p)=[fi (pv)+fi (raw)+fi (bev)],for i=1,...,n.
其中,fi (p)表示最终获得的关键点i的特征,fi (pv)表示关键点i通过体素下 采样综合出的特征,fi (raw)表示关键点i的原始点特征,fi (bev)表示关键点i的 鸟瞰图特征。
应说明的是,在最终获得的体素特征中加入原始点特征是为了弥补体素 化导致的量化损失,加入鸟瞰图特征是为了拥有更加丰富的高度感知度,同 时为了丰富学习特征。
S5:调整所述关键点权重,赋予前景点更高权重。
进一步的,利用权重调整公式对关键点的权值进行调整,权重调整公式 表示为:
其中,A(·)是一个三层的多层感知机,fi (p)表示最终获得的特征。
应说明的是,关键点主要分为前景点和背景点,对前景点和背景点赋予 不同的权重是为了加大前景点在预测过程中所发挥的作用,进而使得在之后 的提案框优化过程中发挥更大的作用。
更进一步的,接入sigmoid函数来判断该点属于前景点的置信度。
应说明的是,由于3D场景中前背景点的数量过于不均衡,因此需要 PKW模块使用Focal Loss进行训练,其中,Focal Loss的∝为0.25,γ为2。
S6:将所述提案框和带特征的关键点作为输入以完善提案框并获取置信 度预测。
进一步的,将S2生成的提案框划分为4*4*4个网格,每个网格的预计中 心点称为grid point,通过三层渐进采样方案所采样出的512个关键点中落在 提案框中的关键点作为key point,提案框中的其他点作为raw point,以每一 个grid point为中心,聚合多个尺度半径内的特征向量。
更进一步的,聚合后的特征向量采用一个PointNet网络来聚合关键点特 征集,产生grid point的特征:
其中,M(·)代表在k个网格点中固定半径内关键点特征结合中的随机采 样操作,在实现中,每个集合中最大采样16个体素特征,节省计算资源; G(·)代表多层感知网络(MLP),来编码关键点的特征和相对位置;max(·)操 作取每个关键点特征集合中特征最大的特征作为网格点特征。
应说明的是,将不同半径大小的网格点特征拼接在一起能够获取更加丰 富的多尺度语义信息。
更进一步的,在获得所有的网格点特征后,使用一个两层的MLP网络将 特征转换到最终的256维度,用以代表整个提案框内的特征;两层MLP后分 为两个分值,分别进行置信度预测和提案框优化;
利用yk计算公式来计算置信度,表示为:
yk=min(1,max(0,2IoUk-0.5))
其中,IoUk表示为第k个提案框预测区域与训练集标注区域两个区域的 重叠部分占两者总面积的比例。
利用交叉熵损失函数来进行提案框优化,表示为:
实施例2
参照图4~7,为本发明的一个实施例,提供了一种面向自动驾驶系统的 三维实时目标检测方法,为了验证本发明的有益效果,通过经济效益计算和 仿真实验进行科学论证。
首先,针对本发明提出的实施例FP-RCNN,将平均检测精度(AP)和检测 速度(FPS)作为衡量检测效果的指标,AP计算方式如下式所示:
实验的软件环境为:操作系统为Ubuntu 19.10,CUDA版本:11.4,编程平 台为PyCharm2021.2.2,torch版本为1.10.1GPU版本,cudatoolkit版本为11.0.3。 实验使用的硬件环境:显卡为英伟达3090,驱动版本为NVIDIA-SMI 470.129.06。
图4为针对汽车的检测效果,IoU(重叠度)阈值设定为:0.7,0.5,0.5;检 测效果最好的三种算法为IA-SSD、PV-RCNN和FP-RCNN,在简单难度的检 测中,三者的检测效果相差在百分之一左右;但是对于中等和困难难度,单 阶段方法IA-SSD的检测精确度以80.32%和75.1%远低于PV-RCNN的89.6% 和89.18%,FP-RCNN的检测效果低于PV-RCNN,但是只低0.5%左右。
图5为针对行人的检测效果,IoU阈值设定为:0.7,0.5,0.5;VoTR和Fast Point R-CNN未进行在行人和骑自行车的人上的测试,主要体现了对汽车检测 的精确度。对于行人效果检测来说,效果较好的是PV-RCNN以及FP-RCNN, 在简单、中等、困难三种难度来说都是FP-RCNN效果更好,都保持了5%以 上的提高;这主要归功于采样方式的改进,三层的渐进采样方法保留了在行 人上的前景点,大大提高了对行人的检测效果。
图6为针对骑自行车的人的检测效果,IoU阈值设定为:0.5,0.25,0.25;其 中,三种难度的检测效果都较好的是IA-SSD、PV-RCNN以及FP-RCNN,三 者在骑自行车的人上的检测精度表现和在汽车上的检测效果表现相似,PV- RCNN以及FP-RCNN的检测效果相似,差距在1%左右;但是IA-SSD由于 算法保留的前景点过少,保留的点不能为骑自行车的人检测效果提供足够的 上下文信息,所以最终在困难难度上比FP-RCNN低了17.5%。
图7表示在上述实验条件下,能达到的最快的检测速度,其中检测速度较 快的为IA-SSD、PointPillars以及FP-RCNN,前两者均为一阶段检测方法, FP-RCNN相较于检测精度相近的二阶段方法PV-RCNN检测速度提升了68%。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、 或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。 所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可 读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特 定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程 序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而, 若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是 编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运 行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另 外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其 组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可 作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多 个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序 包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中 实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布 式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像 装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的 机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学 读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取, 当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描 述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。 当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或 程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存 储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。 计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据 以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多 个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有 形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计 算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、 软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行 的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作 为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个 组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中 以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具 有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据 具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、 分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类 的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参 照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可 以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精 神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种面向自动驾驶系统的三维实时目标检测方法,其特征在于,包括:
利用数据增强策略对点云数据进行预处理,将点云数据体素化;
利用三维稀疏卷积网络获取多倍下采样特征,将八倍下采样的体素特征转换成二维鸟瞰图特征,并通过基于锚点的方法生成提案框;
利用三层渐进下采样方案采样出少量前景点作为关键点;
对所述特征和关键点进行体素集合抽象操作以获取最终关键点特征;
调整所述关键点权重,赋予前景点更高权重;
将所述提案框和带特征的关键点作为输入以完善提案框并获取置信度预测。
3.如权利要求1或2所述的一种面向自动驾驶系统的三维实时目标检测方法,其特征在于:所述将点云数据体素化,包括:
将超过设定边框的点移除,并且将点进行初步的体素化操作,每个体素的长宽高分别是[0.05,0.05,0.1];每个点云的特征维度是4;每个体素中最大的采样点数为5;训练和推理时分别最大选取16000,40000个非空体素。
4.如权利要求3所述的一种面向自动驾驶系统的三维实时目标检测方法,其特征在于:所述利用三维稀疏卷积网络获取多倍下采样特征,包括:
所使用的主干网络为子流形稀疏卷积和空间稀疏卷积组成的稀疏卷积网络,将经体素化处理后获得的体素进行1×2×4×8×下采样,并保存采样结果。
5.如权利要求4所述的一种面向自动驾驶系统的三维实时目标检测方法,其特征在于:所述三层渐进下采样方案,包括:前两层使用D-FPS采样策略即:距离最远采样策略,最后一层使用实例感知采样策略;同时在编码层增加两个多层感知机MLP层用于进一步估计每个点的语义类别,进而使用实例感知采样策略进行采样。
7.如权利要求6所述的一种面向自动驾驶系统的三维实时目标检测方法,其特征在于:所述进行体素集合抽象操作以获取最终关键点特征,包括:
在三维体素下采样三维体素下采样模块中得到1x,2x,4x,8x的体素特征,体素集合抽象在这4个尺度上进行集合抽象操作,获取4个尺度的体素编码特征;
体素集合抽象操作具体的公式表述为:
fi (pv)=fi (pv1)+fi (pv2)+fi (pv3)+fi (pv4)
其中,fi (pv)指的是体素下采样综合出的特征,fi (pv1)指的是体素下采样1x的特征,fi (pv2)指的是体素下采样2x的特征,fi (pv3)指的是体素下采样4x的特征,fi (pv4)指的是体素下采样8x的特征;
在体素下采样综合出的特征中加入原始点的集合抽象特征和来自八倍下采样堆叠得到的鸟瞰图双线插值特征,来获取最终关键点特征;
fi (p)=[fi (pv)+fi (raw)+fi (bev)],for i=1,...,n.
其中,fi (p)表示最终获得的关键点i特征,fi (pv)表示关键点i通过体素下采样综合出的特征,fi (raw)表示关键点i的原始点特征,fi (bev)表示关键点i的鸟瞰图特征。
9.如权利要求8所述的一种面向自动驾驶系统的三维实时目标检测方法,其特征在于:所述置信度预测,表示为:
yk=min(1,max(0,2IoUk-0.5))
其中,IoUk表示为第k个提案框预测区域与训练集标注区域两个区域的重叠部分占两者总面积的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008250.0A CN115424225A (zh) | 2022-08-22 | 2022-08-22 | 一种面向自动驾驶系统的三维实时目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008250.0A CN115424225A (zh) | 2022-08-22 | 2022-08-22 | 一种面向自动驾驶系统的三维实时目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424225A true CN115424225A (zh) | 2022-12-02 |
Family
ID=84199236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211008250.0A Pending CN115424225A (zh) | 2022-08-22 | 2022-08-22 | 一种面向自动驾驶系统的三维实时目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424225A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740668A (zh) * | 2023-08-16 | 2023-09-12 | 之江实验室 | 三维目标检测方法、装置、计算机设备和存储介质 |
-
2022
- 2022-08-22 CN CN202211008250.0A patent/CN115424225A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740668A (zh) * | 2023-08-16 | 2023-09-12 | 之江实验室 | 三维目标检测方法、装置、计算机设备和存储介质 |
CN116740668B (zh) * | 2023-08-16 | 2023-11-14 | 之江实验室 | 三维目标检测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sirohi et al. | Efficientlps: Efficient lidar panoptic segmentation | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN111242041B (zh) | 基于伪图像技术的激光雷达三维目标快速检测方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN106156748B (zh) | 基于车载双目相机的交通场景参与者识别方法 | |
CN114723955B (zh) | 图像处理方法、装置、设备和计算机可读存储介质 | |
WO2021218786A1 (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN112347987A (zh) | 一种多模数据融合的三维目标检测方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN107730904A (zh) | 基于深度卷积神经网络的多任务车辆逆向行驶视觉检测系统 | |
CN111186379B (zh) | 一种基于深度学习的汽车盲区危险物报警方法 | |
CN111832655A (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN117111055A (zh) | 一种基于雷视融合的车辆状态感知方法 | |
Gu et al. | CVFNet: Real-time 3D object detection by learning cross view features | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN115424225A (zh) | 一种面向自动驾驶系统的三维实时目标检测方法 | |
CN117593707B (zh) | 一种车辆识别方法及设备 | |
CN118196628A (zh) | 基于不同预训练特征提取骨干的增强型语义-位置特征融合网络方法、装置及应用 | |
CN117372991A (zh) | 基于多视角多模态融合的自动驾驶方法及系统 | |
CN116778262A (zh) | 一种基于虚拟点云的三维目标检测方法和系统 | |
CN115861944A (zh) | 一种基于激光雷达的交通目标检测系统 | |
CN115082869A (zh) | 一种服务于特种车辆的车路协同多目标检测方法及系统 | |
CN114359829A (zh) | 基于激光雷达点云的密集人群三维感知算法 | |
Wei et al. | An efficient point cloud-based 3d single stage object detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |