CN116343192A - 一种室外3d目标检测方法及系统 - Google Patents
一种室外3d目标检测方法及系统 Download PDFInfo
- Publication number
- CN116343192A CN116343192A CN202310093685.8A CN202310093685A CN116343192A CN 116343192 A CN116343192 A CN 116343192A CN 202310093685 A CN202310093685 A CN 202310093685A CN 116343192 A CN116343192 A CN 116343192A
- Authority
- CN
- China
- Prior art keywords
- constant
- point cloud
- outdoor
- target
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000008859 change Effects 0.000 claims abstract description 24
- 238000010276 construction Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004925 denaturation Methods 0.000 description 3
- 230000036425 denaturation Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种室外3D目标检测方法及系统,其中方法包括:获取室外目标场景中特定3D目标的点云数据,将多帧的点云数据通过数据编码转换成伪图像;在伪图像中进行等变特征提取,得到等变特征;基于等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。本申请基于群等变理论,设计了一种新颖的骨干网络—等变特征提取骨干网络,该骨干网络利用等变卷积能够捕获局部区域4个方向下的特征,可以更好提取物体朝向特征信息。除此之外,本申请还提出了一种基于等变卷积的3D目标检测方法,不仅具有更优的朝向预测,且漏检误检情况更少,比其他先进方法的性能更优。
Description
技术领域
本申请涉及三维检测领域,具体涉及一种室外3D目标检测方法及系统。
背景技术
三维目标检测作为环境感知的重要手段,在自动驾驶系统中具有重要意义。激光雷达由于具有精度高、分辨率高、抗干扰能力强以及测距范围广等特点,目前大部分的室外三维目标检测方法都以其作为主要传感器。在自动驾驶应用中,为了满足实时性的要求,大部分方法首先将点云划分为规则的网格,如体素(voxel)或点云柱(pillar)。这一过程不仅对庞大的点云数据进行了降采样,而且还将不规则的数据转变成规则的,从而节省更多的内存和时间消耗。
在真实复杂的驾驶场景中,不仅需要快速准确地进行推断预测,还需要三维目标检测方法预测出物体的朝向属性。准确地识别目标朝向对于三维目标检测方法在真实驾驶场景中的应用是很重要的,它能提升智能驾驶系统的可靠性和安全性。然而,现有的三维目标检测方法并没有针对朝向方面的研究。
为了提高目标朝向预测的准确率,目前常见的方法是旋转数据增强,即在检测网络训练的时候在给定区间内给场景点云一个随机的旋转,丰富样本目标的朝向角,在一定程度上提高了检测网络的泛化性从而提高其对朝向的预测准确率。然而,数据增强的本质是增加训练样本的丰富度而一定程度上增强网络的泛化性能,并没有真正提高检测网络对物体朝向特征的捕捉能力以及朝向的预测能力。基于群的群等变卷积神经网络(Groupequivariant CNN,G-CNN)为传统卷积神经网络(Convolutional Neural Network,CNN)引入了旋转等变性,使得卷积操作能够在4个群元素之间共享权值,捕获某一区域四个方向下的特征,增强CNN的表达能力。
发明内容
为了提高三维目标检测方法的朝向预测准确率,提升其在实际驾驶场景中的应用意义,本申请提出了一种基于等变卷积的三维目标检测方法。
为实现上述目的,本申请提供了一种室外3D目标检测方法,步骤包括:
获取室外目标场景中特定3D目标的点云数据,将多帧的所述点云数据通过数据编码转换成伪图像;
在所述伪图像中进行等变特征提取,得到等变特征;
基于所述等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。
优选的,所述数据编码的方法包括:
将所述点云数据输入划分为规则的点云柱;
对所述点云柱内部的点进行特征的聚合得到点云柱的特征;
基于所述点云柱的特征,经过坐标映射,完成所述数据编码。
优选的,得到所述等变特征的方法包括:构建等变特征提取骨干网络对所述伪图像进行等变特征提取,得到所述等变特征。
优选的,所述等变特征提取骨干网络包括:空间提升层和等变卷积层;
所述空间提升层用于将低维图像转换为高维图像;
所述等变卷积层用于将捕获的局部区域特征信息进行拼接,得到所述等变特征。
优选的,所述拼接的方法包括:在四个群元素之间共享所述等变卷积层的卷积核权值;基于共享的所述卷积核权值,捕获局部区域的四个方向下的特征信息;将所述特征信息进行拼接。
优选的,进行所述回归预测的方法包括:以关键点表示物体的中心,并回归朝向、尺寸和速度属性。
本申请还提供了一种室外3D目标检测系统,包括:转换模块、提取模块和预测模块;
所述转换模块用于获取室外目标场景中特定3D目标的点云数据,将多帧的所述点云数据通过数据编码转换成伪图像;
所述提取模块用于在所述伪图像中进行等变特征提取,得到等变特征;
所述预测模块用于基于所述等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。
优选的,所述提取模块包括:空间提升层构建单元和等变卷积层构建单元;
所述空间提升层构建单元用于将低维图像转换为高维图像;
所述等变卷积层构建单元用于将捕获的局部区域特征信息进行拼接,得到所述等变特征。
与现有技术相比,本申请的有益效果如下:
本申请基于群等变理论,设计了一种新颖的骨干网络—等变特征提取骨干网络,该骨干网络利用等变卷积能够捕获局部区域4个方向下的特征,可以更好提取物体朝向特征信息。除此之外,本申请还提出了一种基于等变卷积的3D目标检测方法,不仅具有更优的朝向预测,且漏检误检情况更少,比其他先进方法的性能更优。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的方法流程示意图;
图2为本申请实施例一的点云数据编码示意图;
图3为本申请实施例一的空间提升层示意图;
图4为本申请实施例一的等变卷积层示意图;
图5为本申请实施例一的等变特征提取骨干网络示意图;
图6为本申请实施例二的可视化结果示意图;
图7为本申请实施例三的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本实施例的方法流程示意图,步骤包括:获取室外目标场景中特定3D目标的点云数据,将多帧的点云数据通过数据编码转换成伪图像;在伪图像中进行等变特征提取,得到等变特征;基于等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。本实施例以多帧聚合后的激光雷达点云作为输入,最终输出若干的3D预测框,包含了物体的位置、尺寸、朝向、速度、类别等信息。
首先,进行点云数据编码。
本实施例以自动驾驶为背景技术场景,为了满足自动驾驶应用的实时性要求,本实施例对网络接收的激光雷达多帧点云数据输入进行如图2所示的点云数据编码:将点云输入划分为规则的点云柱,在本实施例中对每个点云柱内部的点利用mini-PointNet进行特征的聚合得到每个点云柱的特征。mini-PointNet接收的输入pi=[xi,yi,zi,xc,yc,zc,xp,yp,I],其中[xi,yi,zi,I]为点pi的原始坐标和反射强度,[xc,yc,zc]为点pi到点集中心的距离,[xp,yp]则为点pi到点云柱中心的距离。最后经过坐标映射得到伪图像D=[C,H,W]。
之后,在上述的伪图像中进行等变特征提取,得到等变特征。
经过点云数据编码后,稀疏不规则的点云数据转变成规则的伪图像。现有的方法大部分利用成熟的CNN对伪图像进行特征提取。而传统的卷积操作在某个区域内仅能提取到一个方向下的特征信息,在面对真实驾驶场景中复杂多样的目标朝向问题时难以捕获到良好的朝向特征信息。因此,为了增强检测网络对于朝向特征的捕获能力,本实施例基于等变卷积提出了一个等变特征提取骨干网络,它主要包括两部分,分别是空间提升层以及等变卷积层。
(1)空间提升层
空间提升层将伪图像D∈X转换到高维Y,为骨干网络保持旋转等变性奠定了基础。空间提升卷积Ψ*x定义为:
图3中,经过4个卷积核得到的4幅特征图尽管在肉眼上看上去是一样的,但是实际上是存在差异的。为了简洁表示,令g=(t,r)∈C4,则该操作的旋转等变性证明如公式(2)所示:
其中,其中x表示特征图、x(y)表示特征图的某一个像素点y的值、Ψ*x表示以卷积核Ψ对特征图进行卷积、R表示旋转变换、g=(t,r)∈P_4、(t,r)属于P_4群的元素,表示对图像像素点p∈Z^2先进行r∈C_4的旋转后进行t平移、R表示旋转变换、x和Ψ的含义同上。
(2)等变卷积层
经过空间提升层后,输出的空间变成了Y。Y中,P4群中的自然操作满足公式(3):
[(t,r)·y](p,s)=y((t,r)-1·(p,s))
=y(r-1(p-t),r-1s) (3)
其中,(p,s)为群P4的元素索引,s={0,1,2,3}表示逆时针旋转s次90°,(t,r)同样表示对特征图t的平移和旋转r操作。
根据群的基本操作,并结合上述方程构建在空间Y上的卷积,其表示如公式(4):
如图4所示,该层的卷积核权值能够在4个群元素之间共享,该操作捕获了局部区域的4个方向下的特征信息,并且在最后进行拼接。相比于传统的卷积操作,其具备更强的特征捕获和表达能力。
基于上述的主要部分,构建一个等变特征提取骨干网络,其结构如图5所示。该骨干网络首先通过空间提升层将输入特征图(即上述得到的伪图像)变换到空间中,而后通过叠加等变卷积层(或等变反卷积层)保持旋转等变性并进行等变特征的提取。同时,为了检测真实驾驶场景中多种尺度的目标,本实施例的骨干网络延续了特征金字塔网络(FeaturePyramid Network,FPN)的结构,对输入特征图先利用等变卷积层下采样,然后利用等变反卷积层上采样成相同尺寸的特征图,并拼接得到最终特征。最终的拼接操作,将4个方向下的特征进行聚合汇总,丰富了传统CNN单个方向的特征信息,从而蕴含了更多具有朝向特征,为后续检测器的回归预测奠定了基础。
最后基于等变特征,利用以中心为基准的检测器进行回归预测。
由于3D场景中目标的朝向多种多样,而且存在较多目标的朝向与坐标轴不是对齐平行的,因此为了更好地表示场景中的目标以及配合本实施例设计的等变特征提取骨干网络更好地预测目标的朝向,本实施例算法采用center-based的检测头,即以关键点来表示物体的中心,并回归如朝向、尺寸、速度等属性。
实施例二
下面结合本实施例实验来进一步说明本申请的先进性。
首先,本实施例的数据均来自于nuScenes数据集,该数据集在波士顿和新加坡一共采集了40000个关键帧,包含了28130个训练样本和6019个测试样本,标注的目标共有23类,包括了汽车、行人、骑行者、公交车等。而在3D目标检测任务中需要检测的目标为10类。
基于上述数据,本实施例将训练一个10类的检测方法。配置如表1所示。
表1
准确率分析:本实施例对比了现有先进方法与本实施例所提方法在nuScenes数据集中3D目标检测任务的性能表现。其中,首先对mAP和NDS这两个衡量方法性能的重要指标进行分析,结果如表2所示。
表2
表2共对比了10类目标的AP,依次为汽车、行人、栅栏、交通锥、卡车、公交车、拖车、工程车、摩托车以及骑行者。通过与现有的5种较先进的3D目标检测方法对比可以发现,本实施例所提方法在汽车、行人等8个类别中均取得了最好的AP表现,而且该方法取得了50.2%的mAP以及60.3的NDS,均要比现有的方法要更高。这表明了本实施例所提方法的有效性,不仅能更精确预测目标位置,而且在各项TP指标中都有明显的提升。
朝向准确率分析:另外,为了验证本实施例所提方法在目标朝向预测方面的性能,对每个类别的AOE以及方法的mAOE进行额外分析。结果如表3所示。
表3
表3对比了具有朝向属性的9个类别的AOE,以及整体指标mAOE。通过与现有的4种检测方法对比可以得到,本实施例所提方法在大部分类别的AOE指标下都取得了最好的结果,其中在汽车、卡车及摩托车类中下降更为明显。mAOE指标相比最好的CenterPoint下降了7%。该结果表明了本实施例所提方法在目标朝向预测方面具有明显的优势,其特征提取骨干网络能够充分捕获目标朝向信息,增强网络对朝向的预测性能,进而提升方法的应用表现。
消融实验:为了探究本实施例所提的等变特征提取骨干网络(EquivariantFeature Extraction Backbone,EFE-Backbone)以及旋转数据增强(RotationDataAugmentation,RDA)对于本实施例所提检测方法性能的影响,本实施例进一步进行了相关的消融实验。消融实验的结果如表4所示。
表4
由表4,对比方法2、3和方法1可以得到,不论是旋转数据增强还是等变特征提取骨干网络对于本实施例方法的NDS、mAP以及mAOE指标均有帮助。对比方法2和3性能可以看出,在不进行旋转数据增强的情况下,利用本实施例所提的EFE-Backbone可以取得相当的mAP性能,而在预测物体朝向准确率方面得到了较大的提升(mAOE由0.3850下降到0.3695),这表明了本实施例设计的等变特征提取骨干网络的有效性,它能够明显增强检测方法对于目标朝向预测的能力,更好地识别物体朝向。
而且,由方法4的结果可以看到,结合旋转数据增强和本实施例所提的骨干网络,所得方法的性能最好。其一是因为数据增强能够增加拟合网络的泛化性。更重要的是EFE-Backbone基于群等变卷积增强了网络的特征表达能力,从而提升了检测网络的整体性能。
泛化性分析:为了探究本实施例所提的EFE-Backbone的泛化性,本实施例将进一步进行泛化性对比实验。实验将会基于目前比较常见的三维目标检测方法,比较原方法与替换为EFE-Backbone后的方法,的性能,包括NDS,mAP以及mAOE。实验结果如表5所示。
泛化性实验对比了PointPillars、SSN、Free-anchor3d以及CenterPoint这四种方法。由表5可以看出,将现有的三维目标检测方法的特征提取部分替换为EFE-Backbone后,三项指标均得到了明显的优化,这充分地表明了本实施例所提的EFE-Backbone具有相当的泛化性,能够提升检测方法的性能。这得益于群等变卷积更高的权值共享以及表达能力,它能够更有效地提取物体朝向以及相关信息的特征,从而优化算法的性能。
表5
可视化分析:对本实施例所提方法以及对比方法的检测结果进行俯视视角的可视化分析,可视化限定x轴和y轴范围均为[-40m,40m],可视化结果如图6所示。图中蓝色框表示真实框(待检测目标),绿色框则为算法的预测输出框。框内的直线表示目标的前进方向。从图6可以看出,本实施例所提方法不仅能够获得更优的朝向预测结果,而且也能有效改善漏检和误检的情况。通过可视化结果可以表明了本实施例所提等变特征提取骨干网络的有效性,不仅能提高朝向预测准确率,而且还能够提高算法的整体性能。
实施例三
如图7所示,为本申请实施例系统结构示意图,包括:转换模块、提取模块和预测模块;其中,转换模块用于获取室外目标场景中特定3D目标的点云数据,将多帧的点云数据通过数据编码转换成伪图像;提取模块用于在伪图像中进行等变特征提取,得到等变特征;预测模块用于基于等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。
此外提取模块还包括:空间提升层构建单元和等变卷积层构建单元;空间提升层构建单元用于将低维图像转换为高维图像,为等变特征提取骨干网络保持变性奠定基础;等变卷积层构建单元用于将捕获的局部区域特征信息进行拼接,得到等变特征。
下面将结合本实施例,详细说明本申请系统如何解决现实生活中的技术问题。
本实施例以自动驾驶为背景技术场景,为了满足自动驾驶应用的实时性要求,本实施例对网络接收的激光雷达多帧点云数据利用转换模块进行编码,将其转换成伪图像。工作流程包括:将获取的点云数据输入划分为规则的点云柱,在本实施例中对每个点云柱内部的点利用mini-PointNet进行特征的聚合得到每个点云柱的特征。mini-PointNet接收的输入pi=[xi,yi,zi,xc,yc,zc,xp,yp,I],其中[xi,yi,zi,I]为点pi的原始坐标和反射强度,[xc,yc,zc]为点pi到点集中心的距离,[xp,yp]则为点pi到点云柱中心的距离。最后经过坐标映射得到伪图像D=[C,H,W]。
之后,利用提取模块在上述的伪图像中进行等变特征提取,得到等变特征。
经过点云数据编码后,稀疏不规则的点云数据转变成规则的伪图像。现有的方法大部分利用成熟的CNN对伪图像进行特征提取。而传统的卷积操作在某个区域内仅能提取到一个方向下的特征信息,在面对真实驾驶场景中复杂多样的目标朝向问题时难以捕获到良好的朝向特征信息。因此,为了增强检测网络对于朝向特征的捕获能力,本实施例利用提取模块构建了一个等变特征提取骨干网络,其中,利用空间提升层构建单元以及等变卷积层构建单元分别构建了上述等变特征提取骨干网络的空间提升层和等变卷积层。
(1)空间提升层
空间提升层将伪图像D∈X转换到高维Y,为骨干网络保持旋转等变性奠定了基础。空间提升卷积Ψ*x定义为:
经过4个卷积核得到的4幅特征图尽管在肉眼上看上去是一样的,但是实际上是存在差异的。为了简洁表示,令g=(t,r)∈C4,则该操作的旋转等变性证明如公式(6)所示:
其中,R表示旋转变换,x和Ψ的含义同上。
(2)等变卷积层
经过空间提升层后,输出的空间变成了Y。Y中,P4群中的自然操作满足公式(7):
[(t,r)·y](p,s)=y((t,r)-1·(p,s))
=y(r-1(p-t),r-1s) (8)
其中,(p,s)为群P4的元素索引,s={0,1,2,3}表示逆时针旋转s次90°,(t,r)同样表示对特征图t的平移和旋转r操作。
根据群的基本操作,并结合上述方程构建在空间Y上的卷积,其表示如公式(9):
其中,在固定的S的情况下,即卷积核[r,ψ](·,s):对图像x(·,s):/>进行卷积操作。该层的卷积核权值能够在4个群元素之间共享,该操作捕获了局部区域的4个方向下的特征信息,并且在最后进行拼接。相比于传统的卷积操作,其具备更强的特征捕获和表达能力。
基于上述的主要部分,提取模块构建一个等变特征提取骨干网络,该骨干网络首先通过空间提升层将输入特征图(即上述得到的伪图像)变换到空间中,而后通过叠加等变卷积层(或等变反卷积层)保持旋转等变性并进行等变特征的提取。同时,为了检测真实驾驶场景中多种尺度的目标,本实施例的骨干网络延续了特征金字塔网络(FeaturePyramidNetwork,FPN)的结构,对输入特征图先利用等变卷积层下采样,然后利用等变反卷积层上采样成相同尺寸的特征图,并拼接得到最终特征。最终的拼接操作,将4个方向下的特征进行聚合汇总,丰富了传统CNN单个方向的特征信息,从而蕴含了更多具有朝向特征,为后续检测器的回归预测奠定了基础。
最后预测模块基于等变特征,利用以中心为基准的检测器进行回归预测。
由于3D场景中目标的朝向多种多样,而且存在较多目标的朝向与坐标轴不是对齐平行的,因此为了更好地表示场景中的目标以及配合本实施例设计的等变特征提取骨干网络更好地预测目标的朝向,本实施例预测模块采用center-based的检测头,即以关键点来表示物体的中心,并回归如朝向、尺寸、速度等属性。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (7)
1.一种室外3D目标检测方法,其特征在于,步骤包括:
获取室外目标场景中特定3D目标的点云数据,将多帧的所述点云数据通过数据编码转换成伪图像;
在所述伪图像中进行等变特征提取,得到等变特征;
基于所述等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果;
所述数据编码的方法包括:
将所述点云数据输入划分为规则的点云柱;
对所述点云柱内部的点进行特征的聚合得到点云柱的特征;
基于所述点云柱的特征,经过坐标映射,完成所述数据编码。
2.根据权利要求1所述的室外3D目标检测方法,其特征在于,得到所述等变特征的方法包括:构建等变特征提取骨干网络对所述伪图像进行等变特征提取,得到所述等变特征。
3.根据权利要求2所述的室外3D目标检测方法,其特征在于,所述等变特征提取骨干网络包括:空间提升层和等变卷积层;
所述空间提升层用于将低维图像转换为高维图像;
所述等变卷积层用于将捕获的局部区域特征信息进行拼接,得到所述等变特征。
4.根据权利要求3所述的室外3D目标检测方法,其特征在于,所述拼接的方法包括:在四个群元素之间共享所述等变卷积层的卷积核权值;基于共享的所述卷积核权值,捕获局部区域的四个方向下的特征信息;将所述特征信息进行拼接。
5.根据权利要求3所述的室外3D目标检测方法,其特征在于,进行所述回归预测的方法包括:以关键点表示物体的中心,并回归朝向、尺寸和速度属性。
6.一种室外3D目标检测系统,其特征在于,包括:转换模块、提取模块和预测模块;
所述转换模块用于获取室外目标场景中特定3D目标的点云数据,将多帧的所述点云数据通过数据编码转换成伪图像;
所述提取模块用于在所述伪图像中进行等变特征提取,得到等变特征;
所述预测模块用于基于所述等变特征,利用以中心为基准的检测器进行回归预测,得到最终的3D目标检测结果。
7.根据权利要求6所述的室外3D目标检测系统,其特征在于,所述提取模块包括:空间提升层构建单元和等变卷积层构建单元;
所述空间提升层构建单元用于将低维图像转换为高维图像;
所述等变卷积层构建单元用于将捕获的局部区域特征信息进行拼接,得到所述等变特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310093685.8A CN116343192B (zh) | 2023-02-10 | 一种室外3d目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310093685.8A CN116343192B (zh) | 2023-02-10 | 一种室外3d目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343192A true CN116343192A (zh) | 2023-06-27 |
CN116343192B CN116343192B (zh) | 2024-09-24 |
Family
ID=
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242041A (zh) * | 2020-01-15 | 2020-06-05 | 江苏大学 | 基于伪图像技术的激光雷达三维目标快速检测方法 |
CN111695522A (zh) * | 2020-06-15 | 2020-09-22 | 重庆邮电大学 | 一种平面内的旋转不变人脸检测方法、装置及存储介质 |
CN112836734A (zh) * | 2021-01-27 | 2021-05-25 | 深圳市华汉伟业科技有限公司 | 一种异源数据融合方法及装置、存储介质 |
CN113850129A (zh) * | 2021-08-21 | 2021-12-28 | 南京理工大学 | 一种旋转等变的空间局部注意力遥感图像目标检测方法 |
CN114004978A (zh) * | 2021-11-04 | 2022-02-01 | 昆明理工大学 | 一种基于注意力机制和可变形卷积的点云目标检测方法 |
US11295170B1 (en) * | 2021-08-17 | 2022-04-05 | FPT USA Corp. | Group-equivariant convolutional neural networks for 3D point clouds |
EP4060612A1 (en) * | 2021-03-17 | 2022-09-21 | Robovision | Improved orientation detection based on deep learning |
CN115115917A (zh) * | 2022-06-13 | 2022-09-27 | 东南大学 | 基于注意力机制和图像特征融合的3d点云目标检测方法 |
CN115246421A (zh) * | 2022-07-26 | 2022-10-28 | 徐毓辰 | 一种车辆自动驾驶系统 |
CN115457335A (zh) * | 2022-10-19 | 2022-12-09 | 大连理工大学 | 一种基于改进second网络的点云目标检测方法 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242041A (zh) * | 2020-01-15 | 2020-06-05 | 江苏大学 | 基于伪图像技术的激光雷达三维目标快速检测方法 |
CN111695522A (zh) * | 2020-06-15 | 2020-09-22 | 重庆邮电大学 | 一种平面内的旋转不变人脸检测方法、装置及存储介质 |
CN112836734A (zh) * | 2021-01-27 | 2021-05-25 | 深圳市华汉伟业科技有限公司 | 一种异源数据融合方法及装置、存储介质 |
EP4060612A1 (en) * | 2021-03-17 | 2022-09-21 | Robovision | Improved orientation detection based on deep learning |
US11295170B1 (en) * | 2021-08-17 | 2022-04-05 | FPT USA Corp. | Group-equivariant convolutional neural networks for 3D point clouds |
CN113850129A (zh) * | 2021-08-21 | 2021-12-28 | 南京理工大学 | 一种旋转等变的空间局部注意力遥感图像目标检测方法 |
CN114004978A (zh) * | 2021-11-04 | 2022-02-01 | 昆明理工大学 | 一种基于注意力机制和可变形卷积的点云目标检测方法 |
CN115115917A (zh) * | 2022-06-13 | 2022-09-27 | 东南大学 | 基于注意力机制和图像特征融合的3d点云目标检测方法 |
CN115246421A (zh) * | 2022-07-26 | 2022-10-28 | 徐毓辰 | 一种车辆自动驾驶系统 |
CN115457335A (zh) * | 2022-10-19 | 2022-12-09 | 大连理工大学 | 一种基于改进second网络的点云目标检测方法 |
Non-Patent Citations (3)
Title |
---|
HONG-XING YU 等: "Rotationally Equivariant 3D Object Detection", 《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 27 September 2022 (2022-09-27), pages 2 * |
李俊英: "深度卷积神经网络的旋转等变性研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 8, 15 August 2019 (2019-08-15), pages 1 * |
詹为钦 等: "基于注意力机制的PointPillars+三维目标检测", 《江苏大学学报(自然科学版)》, vol. 41, no. 3, 31 December 2020 (2020-12-31), pages 268 - 273 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bai et al. | An optimized railway fastener detection method based on modified Faster R-CNN | |
CN107665603B (zh) | 一种判定车位占用的实时检测方法 | |
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
Hong et al. | Highway crack segmentation from unmanned aerial vehicle images using deep learning | |
CN111695448A (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
CN117496384B (zh) | 一种无人机图像物体检测方法 | |
CN117274749B (zh) | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 | |
CN117111055A (zh) | 一种基于雷视融合的车辆状态感知方法 | |
Meng et al. | Traffic conflict identification technology of vehicle intersection based on vehicle video trajectory extraction | |
CN117593707B (zh) | 一种车辆识别方法及设备 | |
CN112907734B (zh) | 基于虚拟crh380a模型和深度学习的teds故障检测方法 | |
CN116343192B (zh) | 一种室外3d目标检测方法及系统 | |
CN116343192A (zh) | 一种室外3d目标检测方法及系统 | |
CN116778449A (zh) | 一种用于提高自动驾驶三维目标检测效率的检测方法 | |
CN101499214B (zh) | 一种基于图像信息熵的交通参数自动提取方法 | |
CN117994755A (zh) | 一种车位检测方法和装置 | |
CN113643544A (zh) | 一种基于物联网的停车场内违规泊车智能检测方法及系统 | |
Wang et al. | An End-to-end Point-based Method and A New Dataset for Street Level Point Cloud Change Detection | |
Wu et al. | Deep learning based nighttime target enhancement detection algorithm for intelligent vehicles | |
Li et al. | Infrared Small Target Detection Algorithm Based on ISTD-CenterNet. | |
Yu et al. | YOLOv5-Based Dense Small Target Detection Algorithm for Aerial Images Using DIOU-NMS. | |
Song et al. | Divide and Conquer: Improving Multi-Camera 3D Perception With 2D Semantic-Depth Priors and Input-Dependent Queries | |
Wang et al. | PAFNet: Pillar Attention Fusion Network for Vehicle–Infrastructure Cooperative Target Detection Using LiDAR | |
Wei et al. | An efficient point cloud-based 3d single stage object detector | |
Yang et al. | Traffic Conflicts Analysis in Penang Based on Improved Object Detection With Transformer Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |