CN112288709B - 一种基于点云的三维目标检测方法 - Google Patents
一种基于点云的三维目标检测方法 Download PDFInfo
- Publication number
- CN112288709B CN112288709B CN202011169810.1A CN202011169810A CN112288709B CN 112288709 B CN112288709 B CN 112288709B CN 202011169810 A CN202011169810 A CN 202011169810A CN 112288709 B CN112288709 B CN 112288709B
- Authority
- CN
- China
- Prior art keywords
- size
- voxel
- feature
- dimensional
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000280 densification Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于点云的三维目标检测方法,该方法首先裁剪出有效的点云空间,将其划分为均匀的体素后进行特征提取,再使用三维稀疏卷积层将空间下采样八倍,并通过维度整合将稀疏的三维数据转化为二维俯视图,最后使用分裂‑聚合特征金字塔网络作为区域建议网络的骨干网络,实现对物体的精细检测。其中分裂‑聚合特征金字塔网络包含两个分支,粗糙分支提取多尺度俯视图特征用于检测不同尺寸的物体,并利用丰富的上下文信息来减少背景点和噪声点造成的误检,精细分支对粗糙分支的多尺度特征进一步细化,并完成多尺度特征图的交叉融合,实现了高质量的俯视图边界框回归和高精度的三维目标检测。
Description
技术领域
本发明涉及计算机视觉,自动驾驶技术领域,具体地涉及一种基于点云的三维物体检测方法。
背景技术
基于深度学习的三维目标检测在机器人技术和自动驾驶领域中扮演着重要角色。三维物体检测的任务是找出给定场景中所有感兴趣的物体,并确定其类别,位置,以及朝向。传统彩色相机采集的图像数据由于缺乏了三维物体检测所必需的深度信息,对于遮挡严重的物体常常难以回归得到良好的边界框。随着激光雷达和彩色深度相机的普及,点云数据的获取变得更加方便可行,由于点云数据保留了物体精确的深度信息和几何结构信息,使用点云进行三维物体检测可以达到更高的精度。目前使用点云进行三维目标检测的方法主要分为两类:一类是基于点云和图像融合的方法,主要以MV3D(Multi-view 3DObject Detection Network For Autonomous Driving)为代表,该方法将点云数据投影到前视图和鸟瞰图,再对多视图的点云数据和彩色图像使用二维卷积神经网络提取特征,最后将这些特征进行深度融合,并用于物体检测。这类方法利用鸟瞰图中物体遮挡较少的特点,巧妙地将点云的深度信息和彩色图像进行了融合。由于点云通常是稀疏且分布不均匀的,因此在将点云和图像进行融合的过程中,常常会由于无法精准对齐而对检测结果造成干扰。此外,在将点云数据投影到多视图的过程中,也存在着不可避免的空间结构信息丢失,因此这类方法的检测精度远达不到自动驾驶的技术要求。另一类是基于纯点云的方法,主要以SECOND(Sparsely Embedded Convolutional Detection)为代表,这类方法将点云划分为规则均匀地体素,对每个体素提取特征后,学习三维空间Z轴上的信息,再将空间高度进行压缩形成俯视图伪图像,最后使用区域建议网络处理俯视图特征,实现最终的三维物体检测。这种方法实现了对物体的高精度检测,并且保证了训练和推理速度。由于这类方法将稀疏的三维数据转化为二维伪图像后简单地处理后就用于检测,除了无法避免的体素采样的信息丢失,俯视图特征提取的不充分也丢失了物体的细节信息,因此这类方法预测的边界框不准确,且容易出现误检。
因此,探寻一种兼具速度和精度优势的三维目标检测器是当前自动驾驶领域亟待解决的问题。
发明内容
针对三维目标检测器无法有效地从BEV伪图像中提取有用信息用于3D物体检测的问题,本发明提出了一种融合俯视图多尺度跨层特征的三维物体检测方法,该方法训练及推理速度快,且3D目标检测和BEV目标检测的精度明显高于其它现有方法。
与现有技术不同的是,我们提出了一种深度融合俯视图多尺度特征的三维物体检测方法,整个网络将空间中的三维体素压缩为伪图像后,对俯视图提取多尺度特征,并使用分裂-聚合特征金字塔网络充分融合跨层特征图,最终使用三个 1×1卷积层得到最终的精细检测结果。我们的方法在具有挑战性的KITTI自动驾驶场景的数据集上进行了丰富的实验,结果表明我们的方法对于3D目标检测和BEV(Bird’s Eye View)目标检测的精度均有着显著提升。
为实现上述目的,本发明的技术 方案为一种基于点云的三维目标检测方法,包括如下步骤:
步骤S1:将三维空间进行裁剪,保留一定范围内的点云,滤除不包含物体的三维空间,以减少额外的计算量;
步骤S2:点云划分与分组,将裁剪后三维点云空间划分为均匀大小的3D体素;
步骤S3:体素特征提取,对每个体素内包含的点云进行采样,多于N个点的体素,从中随机采样N个点,对于少于N个点的体素,使用0进行填充,以克服不同体素内包含的点云个数极不均匀的问题;然后使用VFE模块对每个体素进行特征提取,以得到逐体素特征;
步骤S4,将逐体素特征作为输入,先使用一个稀疏卷积张量层将体素特征转化为四维张量C×D×H×W,其中C表示通道数,D×H×W表示空间高度、宽度、长度的维度变化,然后使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样;
步骤S5:将下采样后的四维张量进行稠密化操作,并对空间高度进一步进行压缩,再将其重整为(C×D)×H×W的2D俯视图伪图像;
步骤S6:使用分裂-聚合特征金字塔网络作为区域建议网络的骨干网络,实现精细的3D目标检测,包括:
使用一系列卷积层将原尺寸为S的2D俯视图转化为金字塔型特征层级,其中一共包含三个尺度的特征图F11,F12,F13,其尺寸分别为S,S/2,S/4,再将这三个尺度的特征图分别进行池化和反卷积操作,生成三个独立的金字塔型特征层级;然后使用Concat拼接操作和1×1卷积层将它们聚合成全新的金字塔型特征层级,并反卷积到相同大小S的F21,F22,F23;对于三个尺度的F11,F12,F13,使用三个不同步长的反卷积将其分别恢复到大小S,再进行Concat拼接操作得到Fc;最后将F21,F22,F23与Fc进行逐元素相加,融合得到最终用于检测的特征图;最后,使用三个1×1的卷积层分别预测物体的类别,3D边界框,以及朝向。
进一步的,步骤S1中保留高×宽×长在[-3,1]×[-40,40]×[0,70.4]m3 范围内的点云。
进一步的,步骤S2中选用0.1×0.05×0.05m3 作为体素的尺寸。
进一步的,步骤S3中N取5。
进一步的,步骤S3中使用平均VFE作为体素特征编码器,将每个非空体素内的N个点的信息进行求平均,平均后的结果作为该体素的特征。
进一步的,步骤S6的具体实现方式如下,
步骤S61:使用4个步长为1的3×3卷积得到大小为S的特征图F11,再使用一个步长为2和5个步长为1的3×3卷积处理F11,得到大小为S/2的特征图F12;然后使用一个步长为2和5个步长为1的3×3卷积得到大小为S/4的特征图F13;最后,分别使用步长为1,2,4的反卷积处理F11,F12,F13,得到大小均为S的三个输出,对其进行Concat拼接操作融合后作为粗糙分支的输出Fc;
步骤S62:对于粗糙分支的中间特征图F11,F12,F13,其大小分别为S,S/2, S/4,对大小为S的F11分别使用卷积核为2和4的最大池化,得到大小为S/2,S/4 的新特征图;再对大小为S/2的F12分别使用步长为2的反卷积和卷积核为2的 max-pooling,得到大小为S,S/4的新特征图;最后对大小为S/4的F13分别使用步长为4和2的反卷积,得到大小为S,S/2的新特征图;对于F11,F12,F13以及新生成的6个特征图,将相同大小的特征图进行Concat拼接,使其融合得到新的S,S/2,S/4特征图,再使用1×1卷积层对其分别降维到128,256,256;
步骤S63:对于降维后的三个大小为S,S/2,S/4特征图,分别使用7×7,5×5,3×3的卷积得到高层特征表示F21,F22,F23;分别使用步长为1,2,4的反卷积将其都变为大小为S的特征图,再与粗糙分支的输出Fc逐元素相加,最后分别使用一个3×3卷积处理后,将其结果Concat拼接后作为最后用于检测的精细分支特征Fout;
步骤S64:对于精细分支得到的用于检测的特征Fout,分别使用三个1×1的卷积,得到物体的类别,3D边界框,以及朝向。
与现有技术相比,本发明具有以下创新:
(1)我们提出的方法仅使用点云数据作为输入,利用结构简单的网络将点云体素转化为便于处理的二维图像后,通过分裂-聚合特征金字塔网络提取俯视图的多尺度特征图,并进行跨层交叉融合,在保证了检测速度的前提下,充分利用多尺度特征图丰富的上下文信息,减少背景点和噪声点造成的误检,实现了对多尺寸物体的精准检测。
(2)本发明将区域建议网络分为两个分支,粗糙分支用于提取多尺度特征图用于获得上下文信息和检测不同尺寸的物体,精细分支的分裂-聚合特征金字塔网络对多尺度特征图进行了细化和交叉融合,实现了对边界框的精细回归。该结构对于3D目标检测和BEV目标检测任务均有着显著提升。
附图说明
图1为本发明技术方案的总体框图。
图2为本发明3D稀疏卷积中间提取器及重塑伪图像的网络结构图。
图3为本发明区域建议网络RPN(Region Proposal Network)的结构图。
图4为本发明SA-FPN(分裂-聚合特征金字塔网络)的结构图。
具体实施方式
下面结合附图对本发明所提供的基于纯点云的三维目标检测方法的具体实施方式作详细阐述:
附图1为本发明实施例提供的一种基于纯点云的三维物体检测方法的总体框图。整个网络的具体步骤如下:
步骤S1:对于给定的一个点云空间,我们对原始点云进行裁剪。保留高×宽×长在[-3,1]×[-40,40]×[0,70.4]m范围内的点云,滤除不包含物体的空间,以减少额外的计算量。数据处理后得到的点云空间大小为4×80×70.4m。
步骤S2:点云划分与分组,将裁剪后三维点云空间划分为均匀大小的3D体素;具体实现如下,
步骤S21:将裁剪后的空间划分为均匀大小的体素,分布在对应空间的点云也被相应地分组到各个体素中,为了能够将空间完整地划分为体素,我们选用 0.1×0.05×0.05m作为体素的尺寸,将4×80×70.4m的空间划分为40 1600×1408个体素。
步骤S22:由于40×1600×1408个体素计算量仍然巨大,在网络的训练阶段,我们设置每个场景最多不超过16000个非空体素,多余16000个非空体素的场景我们随机采样16000个非空体素用于检测任务。
步骤S3:体素特征提取,对每个体素内包含的点云进行采样,多于N个点的体素,从中随机采样N个点,对于少于N个点的体素,使用0进行填充,以克服不同体素内包含的点云个数极不均匀的问题;然后使用VFE模块对每个体素进行特征提取,以得到逐体素特征;具体实现如下,
步骤S31:由于点云是稀疏的,分布不均匀的,同一场景的不同位置点云分布数量差异很大。为了均衡体素中包含的点云数目极不均匀的问题,我们对体素中包含的点云个数进行了均衡。我们对多于5个点的体素随机采样5个点,以代表整个体素。对于少于5个点的体素,我们使用0对其进行填充,以确保训练阶段采样的每个非空体素中都有且只有5个点云。
步骤S32:对每个体素内的点云完成采样后,空间内的体素包含的点数已经得到了很好的均匀。我们对每个体素使用VFE(Voxel Feature Encoding)模块对每个体素进行特征提取,以得到逐体素特征。这里我们使用平均VFE作为体素特征编码器,将每个非空体素内的5个点的信息进行求平均,平均后的结果作为该体素的特征。
步骤S4,将逐体素特征作为输入,先使用一个稀疏卷积张量层将体素特征转化为四维张量C×D×H×W,其中C表示通道数,D×H×W表示空间高度、宽度、长度的维度变化,然后使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样;具体实现如下,
步骤S41:将VFE处理体素得到的逐体素特征(Voxel-wise Feature)作为输入,先使用一个稀疏卷积张量层将体素特征转化为四维张量,我们可将其表示为 C×D×H×W,其中C表示通道数,D×H×W表示空间高度、宽度、长度的维度变化。这里我们的得到的初始四维张量大小为16×40×1600×1408。
步骤S42:如图2所示,整个3D空间的信息被表示为C×D×H×W的四维张量后,我们使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样,得到64×5×200×176的输出。
步骤S5:将下采样后的四维张量进行稠密化操作,并对空间高度进一步进行压缩,再将其重整为(C×D)×H×W的2D俯视图伪图像;具体实现如下,
步骤S51:为了将稀疏的3D稀疏数据转化为2D伪图像,我们使用稠密化(dense)操作将稀疏的三维数据稠密化之后,对空间高度进一步进行压缩。这里,我们使用一个步长为(2,1,1),填充为(3,1,1)的稀疏卷积层将空间压缩为128×2×200×176。
步骤S52:为了得到2D俯视图伪图像,我们将通道数C与高度维度D进行合并重整,得到输出为(C×D)×H×W的2D伪图像。伪图像的通道数为 (C×D)=256,大小为200×176。
步骤S6:使用分裂-聚合特征金字塔网络(Split and Aggregation FeaturePyramid Network,SA-FPN)作为区域建议网络的骨干网络,实现精细的3D目标检测;具体实现如下,
步骤S61:对于得到的2D俯视图伪图像,我们用S表示其大小。如图3所示,我们使用4个步长为1的3×3卷积得到大小为S的特征图F11,再使用一个步长为 2和5个步长为1的3×3卷积处理F11,得到大小为S/2的特征图F12。然后使用一个步长为2和5个步长为1的3×3卷积得到大小为S/4的特征图F13。最后,分别使用步长为1,2,4的反卷积处理F11,F12,F13,得到大小均为S的三个输出,对其进行Concat拼接操作融合后作为粗糙分支的输出Fc。
步骤S62:对于粗糙分支的中间特征图F11,F12,F13,其大小分别为S,S/2, S/4。我们对大小为S的F11分别使用卷积核为2和4的最大池化(max-pooling),得到大小为S/2,S/4的新特征图。再对大小为S/2的F12分别使用步长为2的反卷积和卷积核为2的max-pooling,得到大小为S,S/4的新特征图。最后对大小为S/4的F13分别使用步长为4和2的反卷积,得到大小为S,S/2的新特征图。对于F11,F12,F13以及新生成的6个特征图,我们将相同大小的特征图进行Concat 拼接,使其融合得到新的S,S/2,S/4特征图,再使用1×1卷积层对其分别降维到128,256,256。
步骤S63:对于降维后的三个大小为S,S/2,S/4特征图,我们分别使用7×7, 5×5,3×3的卷积得到高层特征表示F21,F22,F23。我们分别使用步长为1,2,4 的反卷积将其都变为大小为S的特征图,再与粗糙分支的输出Fc逐元素相加,最后分别使用一个3×3卷积处理后,将其结果Concat拼接后作为精细分支的输出特征,即最后用于检测的特征Fout。
步骤S64:对于精细分支得到的用于检测的特征Fout,我们分别使用三个 1×1的卷积,得到物体的类别,3D边界框,以及朝向。
以上为本发明的详细步骤,应当理解的是本说明书未详细阐述的部分均属于现有技术。本发明提出了一种基于纯点云的三维目标检测方法,该方法得益于分裂-聚合特征金字塔网络融合的多尺度跨层特征,能够精确地检测遮挡物体并回归得到高质量的边界框,整个网络在保证了训练和推理速度的同时,检测精度远高于其他现有单阶段检测方法。
Claims (6)
1.一种基于点云的三维目标检测方法,其特征在于,包括如下步骤:
步骤S1:将三维空间进行裁剪,保留一定范围内的点云,滤除不包含物体的三维空间,以减少额外的计算量;
步骤S2:点云划分与分组,将裁剪后三维点云空间划分为均匀大小的3D体素;
步骤S3:体素特征提取,对每个体素内包含的点云进行采样,多于N个点的体素,从中随机采样N个点,对于少于N个点的体素,使用0进行填充,以克服不同体素内包含的点云个数极不均匀的问题;然后使用VFE模块对每个体素进行特征提取,以得到逐体素特征;
步骤S4,将逐体素特征作为输入,先使用一个稀疏卷积张量层将体素特征转化为四维张量C×D×H×W,其中C表示通道数,D×H×W表示空间高度、宽度、长度的维度变化,然后使用步长为2的稀疏卷积层和子流形卷积对空间进行8倍下采样;
步骤S5:将下采样后的四维张量进行稠密化操作,并对空间高度进一步进行压缩,再将其重整为(C×D)×H×W的2D俯视图伪图像;
步骤S6:使用分裂-聚合特征金字塔网络作为区域建议网络的骨干网络,实现精细的3D目标检测,包括:
使用一系列卷积层将原尺寸为S的2D俯视图转化为金字塔型特征层级,其中一共包含三个尺度的特征图F11,F12,F13,其尺寸分别为S,S/2,S/4,再将这三个尺度的特征图分别进行池化和反卷积操作,生成三个独立的金字塔型特征层级;然后使用Concat拼接操作和1×1卷积层将它们聚合成全新的金字塔型特征层级,并反卷积到相同大小S的F21,F22,F23;对于三个尺度的F11,F12,F13,使用三个不同步长的反卷积将其分别恢复到大小S,再进行Concat拼接操作得到Fc;最后将F21,F22,F23与Fc进行逐元素相加,融合得到最终用于检测的特征图;最后,使用三个1×1的卷积层分别预测物体的类别,3D边界框,以及朝向。
2.如权利要求1所述的一种基于点云的三维目标检测方法,其特征在于:步骤S1中保留高×宽×长在[-3,1]×[-40,40]×[0,70.4]m3 范围内的点云。
3.如权利要求1所述的一种基于点云的三维目标检测方法,其特征在于:步骤S2中选用0.1×0.05×0.05m3 作为体素的尺寸。
4.如权利要求1所述的一种基于点云的三维目标检测方法,其特征在于:步骤S3中N取5。
5.如权利要求1所述的一种基于点云的三维目标检测方法,其特征在于:步骤S3中使用平均VFE作为体素特征编码器,将每个非空体素内的N个点的信息进行求平均,平均后的结果作为该体素的特征。
6.如权利要求1所述的一种基于点云的三维目标检测方法,其特征在于:步骤S6的具体实现方式如下,
步骤S61:使用4个步长为1的3×3卷积得到大小为S的特征图F11,再使用一个步长为2和5个步长为1的3×3卷积处理F11,得到大小为S/2的特征图F12;然后使用一个步长为2和5个步长为1的3×3卷积得到大小为S/4的特征图F13;最后,分别使用步长为1,2,4的反卷积处理F11,F12,F13,得到大小均为S的三个输出,对其进行Concat拼接操作融合后作为粗糙分支的输出Fc;
步骤S62:对于粗糙分支的中间特征图F11,F12,F13,其大小分别为S,S/2,S/4,对大小为S的F11分别使用卷积核为2和4的最大池化,得到大小为S/2,S/4的新特征图;再对大小为S/2的F12分别使用步长为2的反卷积和卷积核为2的max-pooling,得到大小为S,S/4的新特征图;最后对大小为S/4的F13分别使用步长为4和2的反卷积,得到大小为S,S/2的新特征图;对于F11,F12,F13以及新生成的6个特征图,将相同大小的特征图进行Concat拼接,使其融合得到新的S,S/2,S/4特征图,再使用1×1卷积层对其分别降维到128,256,256;
步骤S63:对于降维后的三个大小为S,S/2,S/4特征图,分别使用7×7,5×5,3×3的卷积得到高层特征表示F21,F22,F23;分别使用步长为1,2,4的反卷积将其都变为大小为S的特征图,再与粗糙分支的输出Fc逐元素相加,最后分别使用一个3×3卷积处理后,将其结果Concat拼接后作为最后用于检测的精细分支特征Fout;
步骤S64:对于精细分支得到的用于检测的特征Fout,分别使用三个1×1的卷积,得到物体的类别,3D边界框,以及朝向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169810.1A CN112288709B (zh) | 2020-10-28 | 2020-10-28 | 一种基于点云的三维目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011169810.1A CN112288709B (zh) | 2020-10-28 | 2020-10-28 | 一种基于点云的三维目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288709A CN112288709A (zh) | 2021-01-29 |
CN112288709B true CN112288709B (zh) | 2022-04-29 |
Family
ID=74373452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011169810.1A Active CN112288709B (zh) | 2020-10-28 | 2020-10-28 | 一种基于点云的三维目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288709B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147564A (zh) * | 2021-03-16 | 2022-10-04 | 华为技术有限公司 | 一种三维模型构建方法、神经网络训练方法以及装置 |
CN113256709A (zh) * | 2021-04-13 | 2021-08-13 | 杭州飞步科技有限公司 | 目标检测方法、装置、计算机设备以及存储介质 |
CN113379709B (zh) * | 2021-06-16 | 2024-03-08 | 浙江工业大学 | 一种基于稀疏多尺度体素特征融合的三维目标检测方法 |
CN113468994A (zh) * | 2021-06-21 | 2021-10-01 | 武汉理工大学 | 基于加权采样和多分辨率特征提取的三维目标检测方法 |
CN114092780A (zh) * | 2021-11-12 | 2022-02-25 | 天津大学 | 基于点云与图像数据融合的三维目标检测方法 |
CN114495042B (zh) * | 2022-01-27 | 2023-08-29 | 北京百度网讯科技有限公司 | 目标检测方法和装置 |
CN115239548A (zh) * | 2022-07-11 | 2022-10-25 | 小米汽车科技有限公司 | 目标检测方法、装置、电子设备及介质 |
CN115373839A (zh) * | 2022-08-12 | 2022-11-22 | 北京觉非科技有限公司 | 一种推理过程的资源配置方法及系统 |
CN117392393A (zh) * | 2023-12-13 | 2024-01-12 | 安徽蔚来智驾科技有限公司 | 点云语义分割方法、计算机设备、存储介质及智能设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028327A (zh) * | 2019-12-10 | 2020-04-17 | 深圳先进技术研究院 | 一种三维点云的处理方法、装置及设备 |
CN111144242A (zh) * | 2019-12-13 | 2020-05-12 | 中国科学院深圳先进技术研究院 | 一种三维目标检测方法、装置及终端 |
CN111160214A (zh) * | 2019-12-25 | 2020-05-15 | 电子科技大学 | 一种基于数据融合的3d目标检测方法 |
WO2020154970A1 (en) * | 2019-01-30 | 2020-08-06 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Deep learning–based feature extraction for lidar localization of autonomous driving vehicles |
-
2020
- 2020-10-28 CN CN202011169810.1A patent/CN112288709B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020154970A1 (en) * | 2019-01-30 | 2020-08-06 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Deep learning–based feature extraction for lidar localization of autonomous driving vehicles |
CN111028327A (zh) * | 2019-12-10 | 2020-04-17 | 深圳先进技术研究院 | 一种三维点云的处理方法、装置及设备 |
CN111144242A (zh) * | 2019-12-13 | 2020-05-12 | 中国科学院深圳先进技术研究院 | 一种三维目标检测方法、装置及终端 |
CN111160214A (zh) * | 2019-12-25 | 2020-05-15 | 电子科技大学 | 一种基于数据融合的3d目标检测方法 |
Non-Patent Citations (2)
Title |
---|
Defect detection on the fabric with complex texture via dual-scale over-complete dictionary;Tao Qu.et.;《The journal of The Textile Institute》;20150709;第1-14页 * |
基于深度学习的三维目标检测方法综述;彭育辉等;《汽车技术》;20200320(第9期);第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112288709A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112288709B (zh) | 一种基于点云的三维目标检测方法 | |
Li et al. | A multi-scale guided cascade hourglass network for depth completion | |
CN113706714B (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
Kaur et al. | Image fusion techniques: a survey | |
Du et al. | Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN108596961B (zh) | 基于三维卷积神经网络的点云配准方法 | |
Lu et al. | SCANet: Spatial-channel attention network for 3D object detection | |
CN108074218B (zh) | 基于光场采集装置的图像超分辨率方法及装置 | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
CN110443892B (zh) | 一种基于单张图像的三维网格模型生成方法及装置 | |
CN111862101A (zh) | 一种鸟瞰图编码视角下的3d点云语义分割方法 | |
CN113592026B (zh) | 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法 | |
CN110879994A (zh) | 基于形状注意力机制的三维目测检测方法、系统、装置 | |
CN114862732B (zh) | 一种融合事件相机与传统光学相机的合成孔径成像方法 | |
CN111814602B (zh) | 一种基于视觉的智能车环境动态目标检测的方法 | |
KR101567792B1 (ko) | 이미지 윤곽 묘사 시스템 및 방법 | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
Kolos et al. | TRANSPR: Transparency ray-accumulating neural 3D scene point renderer | |
CN113378756B (zh) | 一种三维人体语义分割方法、终端设备及存储介质 | |
CN115482268A (zh) | 一种基于散斑匹配网络的高精度三维形貌测量方法与系统 | |
CN106023189A (zh) | 一种基于匹配优化的光场数据深度重建方法 | |
CN113034666B (zh) | 一种基于金字塔视差优化代价计算的立体匹配方法 | |
CN117392496A (zh) | 基于红外与可见光图像融合的目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |