CN113160117A - 一种自动驾驶场景下的三维点云目标检测方法 - Google Patents
一种自动驾驶场景下的三维点云目标检测方法 Download PDFInfo
- Publication number
- CN113160117A CN113160117A CN202110154147.6A CN202110154147A CN113160117A CN 113160117 A CN113160117 A CN 113160117A CN 202110154147 A CN202110154147 A CN 202110154147A CN 113160117 A CN113160117 A CN 113160117A
- Authority
- CN
- China
- Prior art keywords
- points
- dimensional
- features
- local neighborhood
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 231100000897 loss of orientation Toxicity 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000000379 polymerizing effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 27
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种自动驾驶场景下的三维点云目标检测方法,方法包括:将接收的点云数据划分到大小相同的三维网格中,构造局部邻域图,经过图神经网络获得高维度的点的特征,拼接多个维度的点的特征,再选择每个网格中最具有代表性的点的特征映射到伪图像上构成特征图;将特征图送入骨干网络后拼接得到多层次的特征图;在多层次特征图上生成多个锚框,将锚框与人工标注的真值框通过在鸟瞰图中的交并比进行匹配,根据预设阈值划分为正、负样本,将其输入卷积神经网络计算损失,对损失函数进行优化,最终得到物体的朝向信息、位置信息和所属类别。该方法能提高中、小型物体的检测准确率。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种自动驾驶场景下的三维点云目标检测方法。
背景技术
三维目标检测的主要任务是准确定位场景中所有感兴趣目标所在的位置。具体来说,三维目标检测需要输出物体的类别及其在三维空间中的长宽高等信息。基于点云的三维目标检测方法目前在真实场景中有着非常广泛的应用,特别是在无人驾驶汽车对环境的理解上、增强现实(AR)和虚拟现实(VR)等方面。近年来,随着深度学习在计算机视觉领域的快速发展,基于点云的三维目标检测方法也开始大量使用基于深度学习的方法。目前,基于点云的三维目标检测存在对中、小型目标,例如:骑自行车的人、行人等检测的准确率不高;以及计算资源消耗量大等问题。
发明内容
针对于现有技术的不足,本发明的目的在于提供一种自动驾驶场景下的三维点云目标检测方法,提高了背景技术中对中、小型目标检测的准确率。
为实现上述目的,本发明的技术方案为:一种自动驾驶场景下的三维点云目标检测方法,包括以下步骤:
S1:将待检测的点云数据划分至大小相同的三维网格中,固定每个三维网格中的点数量为第一预设数量,同时根据待检测范围构建伪图像;
S2:使用K最近邻算法对每个三维网格构造局部邻域图,根据所述局部邻域图中点与点的关系获取边特征,并对所述边特征进行对称聚合得到所述局部邻域图的代表点特征;
S3:重复步骤S2得到多个不同维度的代表点特征,然后将不同维度的代表点特征进行拼接后得到的多层次特征映射至所述伪图像上构成特征图;
S4:将所述特征图送入骨干网络后拼接得到多层次的特征图;
S5:在所述多层次的特征图上生成多个锚框,使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,同时预设第一阈值与第二阈值,将交并比大于预设第一阈值的设为正样本,将交并比小于预设第二阈值的设为负样本,将所述正、负样本一起输入卷积神经网络计算损失,得到物体的朝向信息、位置信息和所属类别。
进一步地,所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括:
当三维网格中的点数量超过第一预设数量时采用随机取样保留第一预设数量的点;
当三维网格中的点数量少于第一预设数量时采用补0保持第一预设数量的点。
进一步地,所述步骤S2具体包括步骤:
S21:通过K最近邻算法对每个三维网格中的点构造局部邻域图,根据所述局部邻域图,以及所述局部邻域图中点与点的关系,构建非线性函数获得每个局部邻域图中的顶点和离这个顶点最近的K个点中的某一个点的第一边特征;
S22:将多个卷积层、批量归一化层和激活函数构成的单元结构与池化层叠加,并输入所述第一边特征,得到高维度第二边特征;
S23:将所述第二边特征进行对称聚合得到所述局部邻域图顶点的K个最近点中具有代表性的一个点的代表点特征。
进一步地,所述步骤S2中的点与点之间的关系包括:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。
进一步地,所述步骤S4的步骤具体包括:
在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射;其中单元结构为多个卷积层、批量归一化层和激活函数构成;
所述特征图进入所述骨干网络的每个模块前均先经过注意力模型。
进一步地,所述注意力模型包括通道注意力与空间注意力两种注意力机制;其中,所述通道注意力为:
CA(X)=BN(MLP(AvgPool(X)))
=BN(W1(W0AvgPool(X)+b0)+b1)
其中,X表示输入的特征图,BN为批量归一化操作,MLP为多层感知机,AvgPool为平均值池化,W0、W1均为权重,b0、b1为偏差;
所述空间注意力为:
进一步地,所述残差为:
F(X)=H(X)-X
其中,X为输入,H(X)为骨干网络的每个模块多个单元结构。
进一步地,所述步骤S5中的卷积神经网络使用的总损失函数为:
Lcls=-αa(1-Pa)γlogPa
其中,Ldir为朝向信息损失函数,Bdir为朝向信息超参数,Lcls为所属类别损失函数,Bcls为所属类别超参数,Lloc为位置信息损失函数,Bloc为位置信息超参数,Npos为正样本锚框的数量,(x,y,z)为物体的中心坐标,w、l、h分别为物体的是宽度、长度、高度,θ为物体的朝向,SmoothL1为SmoothL1损失函数,Δb为真值框和锚框的差值,αa、γ为超参数,Pa为物体所属类别的概率。
进一步地,还包括步骤:
使用随机梯度下降的方法对卷积神经网络计算的损失进行优化;
卷积神经网络根据该优化结果,自动地调整步骤S1-S4中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
与现有技术相比,本发明具有如下优点:
本发明提供一种自动驾驶场景下的三维点云目标检测方法,该方法更加关注点云之间的几何信息,考虑每个点与其周围邻域点的局部结构信息,构建出图的结构,更好地结合点云的全局特征和局部特征。同时引入注意力模型和残差模型,使得整个网络能更专注于有效数据的学习,提高中、小型物体的检测准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明构造局部邻域图的一实施例结构图;
图2为本发明中由局部邻域图获得每个点局部信息步骤图;
图3为本发明中骨干网络结构图;
图4为本发明普通映射模型与残差映射模型结构对比图;
图5为本发明中注意力模型结构图;
图6为本发明通道注意力结构图;
图7为本发明空间注意力结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
需要注意的是,本发明中的公式或代表式的小标,如无具体特别说明,那么其下标或上标仅仅起到区别作用。
实施例
本发明中提供一种技术方案:一种自动驾驶场景下的三维点云目标检测方法,该方法可分为三个大步骤:特征提取、经骨干网络、三维包围框预测,具体的包括以下步骤:
特征提取:
S1:首先对输入的点云数据进行划分,将点云数据划分到大小相同的三维网格中,将每个三维网格中的点的数量固定为第一预设数量。如果点的数量超过第一预设数量的点数则通过随机采样保留至第一预设数量,如果点的数量少于第一预设数量的点数则通过补0保持第一预设数量。根据需要检测的范围构建一个伪图像。
本步骤中,将输入的点云数据划分到大小相同的三维网格中,其中每个网格的大小长、宽、高为[0.16,0.16,4]米。对于每个三维网格,在网格中取100个点,如果网格中点数超过100,则通过随机采样保留100个点;如果网格中点数少于100,则通过补0来保持100个点。将激光雷达的位置视作xy平面的坐标原点,检测范围为 [0,-40,-3,70.4,40,1]米,构造一个尺寸为440*500的伪图像。
S2:对S1所述的每个三维网格中的每一个点获取点的特征。
本步骤中,对S1所述的每个三维网格中的每一个点,其自身的特征为x1,x2,x3,x4,分别表示各个点的x、y、z坐标和该点的反射强度,计算每个三维网格中点的重心,然后得出每个点相对于重心的偏移,分别记为x5,x6,x7,同时计算出每个点相对于xy平面中心网格的偏移值,分别记为x8,x9,x10,将这些维度拼接在一起作为每个点的特征,每个点的维度为10。
S3:使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。
本步骤中,使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。记P={p1,p2,...,pm},其中P表示为网格的集合,m 为非空网格的数量。其中Pi={(x1,...,x10)1,(x1,...,x10)i,...,(x1,...,x10)100},100 表示的是每个网格中点的数量,将(x1,...,x10)i记为则 Pi={X1,Xi,...,X100}。构建出图的结构,将其表示为G={V,E},其中V表示为图的顶点,E表示为点与点之间的边,如参考图1所示。
S4:根据S3构建的局部邻域图,计算每个点与其周围K个最近邻点的所有边的特征。
本步骤中,根据点与点之间的几何关系,可以计算某一个图的顶点和离这个顶点最近的K个点中的某一个点的边特征,记为eij=F(Xi,Xj),这里F是一个带参数的非线性函数,表示从点j到点 i的信息流动。这里的边特征可以使用以下方法获得,如:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。
在一实施例中使用点与点之间对应特征相减,则边特征为:
eij=F(Xi,Xj)=F′(Xi,Xj-Xi)
进一步可将边特征表示为:
e′ijw=act(αw×(Xj-Xi)+βw×Xi)
其中,e′ijw表示边特征,act表示激活函数,可以使用Relu,Leaky Relu等激活函数,αw和βw对应不同的参数,由网络自动学习,循环上述步骤直至求得每个顶点与周围K个最近邻点的所有边特征。
S5:将卷积层、批量归一化层和激活函数视作一个单元结构,应用v个单元结构和相应的池化层操作进行组合叠加,对上述的输出即每个点与周围K个最近邻点的所有边特征进行进一步特征学习,从而获得场景中每个顶点更高维度的所有边的特征,将其记为ψ。
S6:使用一个对称聚合操作,应用到S5的输出ψ上,输出为局部领域图顶点的K个最近点中最具有代表性的一个点的特征。重复 S3,S4,S5,S6,总共重复μ次。
对称聚合操作可以选择求最大值、求最小值、求平均值或者求和等。在一具体实施例中,对称聚合操作采用求最大值的方法,则输出为这里j:(i,j)∈E表示的是一个局部领域图的结构,i是这个图的顶点,j是顶点i周围的顶点,如参考图2所示。再将X′i作为新的特征维度更新步骤S2中的特征,重复S3,S4,S5,S6,总共重复μ次。
S7:S3-S6中所述的重复操作完成过后,总共生成μ个不同维度的特征。将μ个特征拼接起来,得到三维网格中点云的多层次特征。再对每个网格使用一个对称聚合操作,得到每个网格的全局特征,则一个网格用一个具有多层次特征的点来表示,再将这个点映射到S1 所建立的伪图像上构成特征图。
经骨干网络:
S8:将S7所述特征图送入骨干网络得到多尺度特征图。
本实施例中,在S7中得到的特征图送入骨干网络(BackBone),骨干网络的整体结构如参考图3所示,所述特征图进入所述骨干网络的每个模块前均先经过注意力模型,这里的模块是一个含多个单元结构的整体,其中每个单元结构是多个卷积层、批量归一化层和激活函数的组合。
在现有的骨干网络中,随着网络的加深,获取的信息就越多,特征也更加丰富,随着网络的加深会造成梯度消失的现象;越深的网络梯度的更新更加接近于随机扰动,本实施例中,在传统的骨干网络上加入了残差映射,把残差映射放入每个模块的每个单元结构中,让网络能够学习到残差映射,而不是像普通的神经网络一样,参考图4,为普通映射模型结构图与一实施例的残差映射模型结构图对比,图中,左边部分为普通的神经网络映射模型,右边为本实施例中的残差映射模型,具体地,当输入为X时,左边学习到的特征记为H(X);而残差映射学习到F(X)=H(X)-X的映射;其中,X为输入,H(X)为模块中多个单元结构,F(X)为残差。
进一步地,本实施例中考虑让神经网络模型对输入数据的不同部位的关注点不同,则其权重不同,故在网络中加入注意力模型,其整体结构如参考图5所示。本实施例中的注意力模型包括通道注意力和空间注意力两种注意力机制。具体地,
通道注意力:该模块主要利用的是特征之间的通道关系,即每个通道都包含特殊的特征关系,其结构图如图6所示,在一实施例中,通道注意力的输出CA(X)为:
CA(X)=BN(MLP(AvgPool(X)))
=BN(W1(W0AvgPool(X)+b0)+b1)
其中,X表示输入的特征图,BN为批量归一化操作,MLP为多层感知机,AvgPool为平均值池化,W0、W1均为权重,b0、b1为偏差。
空间注意力:主要利用特征间的内部空间信息生成空间注意力,,其结构图参考图7,空间注意力模块关注信息的具体位置,它是对通道注意力的一种补充,在一实施例中,空间注意力的输出SA(X)为:
本实施例中的特征图进入骨干网络的每个模块前均先经过注意力模型。
重复S8得到多个不同尺度的特征图。
S9:将S8得到的多个不同尺度的特征图进行拼接得到一个多层次的特征图。
三维包围框预测:
S10:在S9所述多层次的特征图上生成大量的锚框,将所述锚框在一具体实施例中,对于每一类物体有三种朝向的锚框,分别是45°、 90°和135°,然后使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,其中判定为正样本有两种方法:1)先验框和真值框的交并比最大;2)先验框和真值框的交并比大于设定的阈值;将阈值设计为[λneg,λpos],将交并比大于预设第一阈值λpos的设为正样本,将交并比小于预设第二阈值λneg的设为负样本,将所述正、负样本一起输入模型计算损失。
优选地,对于大物体来说,将正样本和负样本的匹配阈值分别设置为0.6和0.45,对于中、小型物体来说,将正样本和负样本的匹配阈值分别设置为0.5和0.35;当然,在其他实施例中,也可以设置为其他参数。
S11:所述S10中使用的总损失函数Ltotal为:
Lcls=-αa(1-Pa)γlogPa
Ldir为朝向信息损失函数,Bdir为朝向信息超参数,Lcls为所属类别损失函数,Bcls为所属类别超参数,Lloc为位置信息损失函数,Bloc为位置信息超参数,Npos为正样本锚框的数量,(x,y,z)为物体的中心坐标,w、l、h分别为物体的宽度、长度、高度,θ为物体的朝向,SmoothL1为SmoothL1损失函数,Δb为真值框和锚框的差值,αa、γ为超参数,Pa为物体所属类别的概率。
具体地,将三维目标框的真值和锚框都定义为(x,y,z,w,l,h,θ)的 7维张量,目标框的真值和锚框的位置回归定义为:
xt=(xg-xa)/diagonal,yt=(yg-ya)/diagonal,zt=(zg-za)/ha
其中,xt、yt、zt分别为物体中心坐标x、y、z的人工标注的真值和锚框的偏移量、wt、lt、ht分别为物体长、宽、高的人工标注的真值和锚框的偏移量、θt为物体朝向的人工标注的真值和锚框的偏移量、diagonal为物体锚框的对角线长度:带g的下标为人工标注的真值目标框,带a的下标为锚框,然后得到位置信息损失函数为:
接着,定义物体的朝向信息损失函数为Ldir,可使用cross_entropy 函数,使得网络能够学习到物体的朝向信息;
而对于物体所属类别损失函数Lcls,可使用是Focal loss:
Lcls=-αa(1-Pa)γlogPa
其中Pa是锚框物体类别的概率。超参数αa=0.25,γ=2,通过上述朝向信息损失函数,所属类别损失函数,位置信息损失函数最后得到总损失函数;在一实施例中,可设Bloc=2,Bcls=1,Bdir=0.2。
S12:为了优化S11中总的损失函数Ltotal,使用随机梯度下降的方法进行优化。
优选地,本实施例使用随机梯度下降的方法优化总损失函数Ltotal,将初始学习率设置为3*10-4,每10个epoch学习率衰减0.9倍,总共训练160个epochs,然后卷积神经网络根据该优化结果,反向传播至本发明方法的前面步骤中,自动地调整整个自动驾驶场景下的三维点云目标检测方法过程中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (9)
1.一种自动驾驶场景下的三维点云目标检测方法,其特征在于,包括以下步骤:
S1:将待检测的点云数据划分至大小相同的三维网格中,固定每个三维网格中的点数量为第一预设数量,同时根据待检测范围构建伪图像;
S2:使用K最近邻算法对每个三维网格构造局部邻域图,根据所述局部邻域图中点与点的关系获取边特征,并对所述边特征进行对称聚合得到所述局部邻域图的代表点特征;
S3:重复步骤S2得到多个不同维度的代表点特征,然后将不同维度的代表点特征进行拼接后得到的多层次特征映射至所述伪图像上构成特征图;
S4:将所述特征图送入骨干网络后拼接得到多层次的特征图;
S5:在所述多层次的特征图上生成多个锚框,使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,同时预设第一阈值与第二阈值,将交并比大于预设第一阈值的设为正样本,将交并比小于预设第二阈值的设为负样本,将所述正、负样本一起输入卷积神经网络计算损失,得到物体的朝向信息、位置信息和所属类别。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括:
当三维网格中的点数量超过第一预设数量时采用随机取样保留第一预设数量的点;
当三维网格中的点数量少于第一预设数量时采用补0保持第一预设数量的点。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括步骤:
S21:通过K最近邻算法对每个三维网格中的点构造局部邻域图,根据所述局部邻域图,以及所述局部邻域图中点与点的关系,构建非线性函数获得每个局部邻域图中的顶点和离这个顶点最近的K个点中的某一个点的第一边特征;
S22:将多个卷积层、批量归一化层和激活函数构成的单元结构与池化层叠加,并输入所述第一边特征,得到高维度第二边特征;
S23:将所述第二边特征进行对称聚合得到所述局部邻域图顶点的K个最近点中具有代表性的一个点的代表点特征。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2中的点与点之间的关系包括:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4的步骤具体包括:
在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射;
所述特征图进入所述骨干网络的每个模块前均先经过注意力模型。
7.根据权利要求5所述的方法,其特征在于,所述残差为:
F(X)=H(X)-X
其中,X为输入,H(X)为骨干网络的每个模块多个单元结构。
9.根据权利要求1-8任一项所述的方法,其特征在于,还包括步骤:
使用随机梯度下降的方法对卷积神经网络计算的损失进行优化;
卷积神经网络根据该优化结果,自动地调整步骤S1-S4中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110154147.6A CN113160117A (zh) | 2021-02-04 | 2021-02-04 | 一种自动驾驶场景下的三维点云目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110154147.6A CN113160117A (zh) | 2021-02-04 | 2021-02-04 | 一种自动驾驶场景下的三维点云目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160117A true CN113160117A (zh) | 2021-07-23 |
Family
ID=76882997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110154147.6A Pending CN113160117A (zh) | 2021-02-04 | 2021-02-04 | 一种自动驾驶场景下的三维点云目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160117A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004978A (zh) * | 2021-11-04 | 2022-02-01 | 昆明理工大学 | 一种基于注意力机制和可变形卷积的点云目标检测方法 |
CN114998890A (zh) * | 2022-05-27 | 2022-09-02 | 长春大学 | 一种基于图神经网络的三维点云目标检测算法 |
CN115797425A (zh) * | 2023-01-19 | 2023-03-14 | 中国科学技术大学 | 一种基于点云鸟瞰图和由粗到精策略的激光全局定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200150235A1 (en) * | 2018-11-08 | 2020-05-14 | Aptiv Technologies Limited | Deep learning for object detection using pillars |
CN111242041A (zh) * | 2020-01-15 | 2020-06-05 | 江苏大学 | 基于伪图像技术的激光雷达三维目标快速检测方法 |
CN112085735A (zh) * | 2020-09-28 | 2020-12-15 | 西安交通大学 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
US20210012555A1 (en) * | 2019-07-08 | 2021-01-14 | Waymo Llc | Processing point clouds using dynamic voxelization |
CN112270280A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 一种基于深度学习的遥感图像中的露天矿场检测方法 |
-
2021
- 2021-02-04 CN CN202110154147.6A patent/CN113160117A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200150235A1 (en) * | 2018-11-08 | 2020-05-14 | Aptiv Technologies Limited | Deep learning for object detection using pillars |
US20210012555A1 (en) * | 2019-07-08 | 2021-01-14 | Waymo Llc | Processing point clouds using dynamic voxelization |
CN111242041A (zh) * | 2020-01-15 | 2020-06-05 | 江苏大学 | 基于伪图像技术的激光雷达三维目标快速检测方法 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112085735A (zh) * | 2020-09-28 | 2020-12-15 | 西安交通大学 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
CN112270280A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 一种基于深度学习的遥感图像中的露天矿场检测方法 |
Non-Patent Citations (6)
Title |
---|
ALEX H. LANG 等: "PointPillars: Fast Encoders for Object Detection from Point Clouds", 《ARXIV》 * |
CHARLES R. QI 等: "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
GUOJUN WANG 等: "CenterNet3D:An Anchor free Object Detector for Autonomous Driving", 《ARXIV》 * |
JUN FU 等: "Dual Attention Network for Scene Segmentation", 《ARXIV》 * |
JUNBO YIN 等: "LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention", 《CVPR》 * |
YUE WANG 等: "Dynamic Graph CNN for Learning on Point Clouds", 《ACM TRANSACTIONS ON GRAPHICS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004978A (zh) * | 2021-11-04 | 2022-02-01 | 昆明理工大学 | 一种基于注意力机制和可变形卷积的点云目标检测方法 |
CN114998890A (zh) * | 2022-05-27 | 2022-09-02 | 长春大学 | 一种基于图神经网络的三维点云目标检测算法 |
CN114998890B (zh) * | 2022-05-27 | 2023-03-10 | 长春大学 | 一种基于图神经网络的三维点云目标检测算法 |
CN115797425A (zh) * | 2023-01-19 | 2023-03-14 | 中国科学技术大学 | 一种基于点云鸟瞰图和由粗到精策略的激光全局定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109902806B (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN112084869B (zh) | 一种基于紧致四边形表示的建筑物目标检测方法 | |
US10373027B1 (en) | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same | |
CN111709416B (zh) | 车牌定位方法、装置、系统及存储介质 | |
EP3690740A1 (en) | Method for optimizing hyperparameters of auto-labeling device which auto-labels training images for use in deep learning network to analyze images with high precision, and optimizing device using the same | |
CN113076871B (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN110309842B (zh) | 基于卷积神经网络的物体检测方法及装置 | |
CN113160117A (zh) | 一种自动驾驶场景下的三维点云目标检测方法 | |
EP3690741B1 (en) | Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
CN113706480A (zh) | 一种基于关键点多尺度特征融合的点云3d目标检测方法 | |
CN112016463A (zh) | 一种基于深度学习的车道线检测方法 | |
CN110826411B (zh) | 一种基于无人机图像的车辆目标快速识别方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN115995042A (zh) | 一种视频sar运动目标检测方法及装置 | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
CN116363532A (zh) | 基于注意力机制和重参数化的无人机图像交通目标检测方法 | |
CN116129234A (zh) | 一种基于注意力的4d毫米波雷达与视觉的融合方法 | |
CN110909656A (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN112597875A (zh) | 一种多分支网络的抗漏检航拍目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |