CN113160117A - 一种自动驾驶场景下的三维点云目标检测方法 - Google Patents

一种自动驾驶场景下的三维点云目标检测方法 Download PDF

Info

Publication number
CN113160117A
CN113160117A CN202110154147.6A CN202110154147A CN113160117A CN 113160117 A CN113160117 A CN 113160117A CN 202110154147 A CN202110154147 A CN 202110154147A CN 113160117 A CN113160117 A CN 113160117A
Authority
CN
China
Prior art keywords
points
dimensional
features
local neighborhood
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110154147.6A
Other languages
English (en)
Inventor
蒋涛
钟卓男
吴思东
袁建英
刘甲甲
贺喜
段翠萍
崔亚男
宁梓豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202110154147.6A priority Critical patent/CN113160117A/zh
Publication of CN113160117A publication Critical patent/CN113160117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种自动驾驶场景下的三维点云目标检测方法,方法包括:将接收的点云数据划分到大小相同的三维网格中,构造局部邻域图,经过图神经网络获得高维度的点的特征,拼接多个维度的点的特征,再选择每个网格中最具有代表性的点的特征映射到伪图像上构成特征图;将特征图送入骨干网络后拼接得到多层次的特征图;在多层次特征图上生成多个锚框,将锚框与人工标注的真值框通过在鸟瞰图中的交并比进行匹配,根据预设阈值划分为正、负样本,将其输入卷积神经网络计算损失,对损失函数进行优化,最终得到物体的朝向信息、位置信息和所属类别。该方法能提高中、小型物体的检测准确率。

Description

一种自动驾驶场景下的三维点云目标检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种自动驾驶场景下的三维点云目标检测方法。
背景技术
三维目标检测的主要任务是准确定位场景中所有感兴趣目标所在的位置。具体来说,三维目标检测需要输出物体的类别及其在三维空间中的长宽高等信息。基于点云的三维目标检测方法目前在真实场景中有着非常广泛的应用,特别是在无人驾驶汽车对环境的理解上、增强现实(AR)和虚拟现实(VR)等方面。近年来,随着深度学习在计算机视觉领域的快速发展,基于点云的三维目标检测方法也开始大量使用基于深度学习的方法。目前,基于点云的三维目标检测存在对中、小型目标,例如:骑自行车的人、行人等检测的准确率不高;以及计算资源消耗量大等问题。
发明内容
针对于现有技术的不足,本发明的目的在于提供一种自动驾驶场景下的三维点云目标检测方法,提高了背景技术中对中、小型目标检测的准确率。
为实现上述目的,本发明的技术方案为:一种自动驾驶场景下的三维点云目标检测方法,包括以下步骤:
S1:将待检测的点云数据划分至大小相同的三维网格中,固定每个三维网格中的点数量为第一预设数量,同时根据待检测范围构建伪图像;
S2:使用K最近邻算法对每个三维网格构造局部邻域图,根据所述局部邻域图中点与点的关系获取边特征,并对所述边特征进行对称聚合得到所述局部邻域图的代表点特征;
S3:重复步骤S2得到多个不同维度的代表点特征,然后将不同维度的代表点特征进行拼接后得到的多层次特征映射至所述伪图像上构成特征图;
S4:将所述特征图送入骨干网络后拼接得到多层次的特征图;
S5:在所述多层次的特征图上生成多个锚框,使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,同时预设第一阈值与第二阈值,将交并比大于预设第一阈值的设为正样本,将交并比小于预设第二阈值的设为负样本,将所述正、负样本一起输入卷积神经网络计算损失,得到物体的朝向信息、位置信息和所属类别。
进一步地,所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括:
当三维网格中的点数量超过第一预设数量时采用随机取样保留第一预设数量的点;
当三维网格中的点数量少于第一预设数量时采用补0保持第一预设数量的点。
进一步地,所述步骤S2具体包括步骤:
S21:通过K最近邻算法对每个三维网格中的点构造局部邻域图,根据所述局部邻域图,以及所述局部邻域图中点与点的关系,构建非线性函数获得每个局部邻域图中的顶点和离这个顶点最近的K个点中的某一个点的第一边特征;
S22:将多个卷积层、批量归一化层和激活函数构成的单元结构与池化层叠加,并输入所述第一边特征,得到高维度第二边特征;
S23:将所述第二边特征进行对称聚合得到所述局部邻域图顶点的K个最近点中具有代表性的一个点的代表点特征。
进一步地,所述步骤S2中的点与点之间的关系包括:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。
进一步地,所述步骤S4的步骤具体包括:
在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射;其中单元结构为多个卷积层、批量归一化层和激活函数构成;
所述特征图进入所述骨干网络的每个模块前均先经过注意力模型。
进一步地,所述注意力模型包括通道注意力与空间注意力两种注意力机制;其中,所述通道注意力为:
CA(X)=BN(MLP(AvgPool(X)))
=BN(W1(W0AvgPool(X)+b0)+b1)
其中,X表示输入的特征图,BN为批量归一化操作,MLP为多层感知机,AvgPool为平均值池化,W0、W1均为权重,b0、b1为偏差;
所述空间注意力为:
Figure RE-GDA0003094721530000041
其中,f为卷积操作,
Figure RE-GDA0003094721530000042
为卷积的个数是从第1个到第i个的嵌套卷积结构,f1 1×1为第一1x1卷积,
Figure RE-GDA0003094721530000043
为第二3x3卷积,fi 1×1为第i1x1卷积。
进一步地,所述残差为:
F(X)=H(X)-X
其中,X为输入,H(X)为骨干网络的每个模块多个单元结构。
进一步地,所述步骤S5中的卷积神经网络使用的总损失函数为:
Figure RE-GDA0003094721530000044
Figure RE-GDA0003094721530000045
Lcls=-αa(1-Pa)γlogPa
其中,Ldir为朝向信息损失函数,Bdir为朝向信息超参数,Lcls为所属类别损失函数,Bcls为所属类别超参数,Lloc为位置信息损失函数,Bloc为位置信息超参数,Npos为正样本锚框的数量,(x,y,z)为物体的中心坐标,w、l、h分别为物体的是宽度、长度、高度,θ为物体的朝向,SmoothL1为SmoothL1损失函数,Δb为真值框和锚框的差值,αa、γ为超参数,Pa为物体所属类别的概率。
进一步地,还包括步骤:
使用随机梯度下降的方法对卷积神经网络计算的损失进行优化;
卷积神经网络根据该优化结果,自动地调整步骤S1-S4中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
与现有技术相比,本发明具有如下优点:
本发明提供一种自动驾驶场景下的三维点云目标检测方法,该方法更加关注点云之间的几何信息,考虑每个点与其周围邻域点的局部结构信息,构建出图的结构,更好地结合点云的全局特征和局部特征。同时引入注意力模型和残差模型,使得整个网络能更专注于有效数据的学习,提高中、小型物体的检测准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明构造局部邻域图的一实施例结构图;
图2为本发明中由局部邻域图获得每个点局部信息步骤图;
图3为本发明中骨干网络结构图;
图4为本发明普通映射模型与残差映射模型结构对比图;
图5为本发明中注意力模型结构图;
图6为本发明通道注意力结构图;
图7为本发明空间注意力结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
需要注意的是,本发明中的公式或代表式的小标,如无具体特别说明,那么其下标或上标仅仅起到区别作用。
实施例
本发明中提供一种技术方案:一种自动驾驶场景下的三维点云目标检测方法,该方法可分为三个大步骤:特征提取、经骨干网络、三维包围框预测,具体的包括以下步骤:
特征提取:
S1:首先对输入的点云数据进行划分,将点云数据划分到大小相同的三维网格中,将每个三维网格中的点的数量固定为第一预设数量。如果点的数量超过第一预设数量的点数则通过随机采样保留至第一预设数量,如果点的数量少于第一预设数量的点数则通过补0保持第一预设数量。根据需要检测的范围构建一个伪图像。
本步骤中,将输入的点云数据划分到大小相同的三维网格中,其中每个网格的大小长、宽、高为[0.16,0.16,4]米。对于每个三维网格,在网格中取100个点,如果网格中点数超过100,则通过随机采样保留100个点;如果网格中点数少于100,则通过补0来保持100个点。将激光雷达的位置视作xy平面的坐标原点,检测范围为 [0,-40,-3,70.4,40,1]米,构造一个尺寸为440*500的伪图像。
S2:对S1所述的每个三维网格中的每一个点获取点的特征。
本步骤中,对S1所述的每个三维网格中的每一个点,其自身的特征为x1,x2,x3,x4,分别表示各个点的x、y、z坐标和该点的反射强度,计算每个三维网格中点的重心,然后得出每个点相对于重心的偏移,分别记为x5,x6,x7,同时计算出每个点相对于xy平面中心网格的偏移值,分别记为x8,x9,x10,将这些维度拼接在一起作为每个点的特征,每个点的维度为10。
S3:使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。
本步骤中,使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。记P={p1,p2,...,pm},其中P表示为网格的集合,m 为非空网格的数量。其中Pi={(x1,...,x10)1,(x1,...,x10)i,...,(x1,...,x10)100},100 表示的是每个网格中点的数量,将(x1,...,x10)i记为
Figure RE-GDA0003094721530000071
则 Pi={X1,Xi,...,X100}。构建出图的结构,将其表示为G={V,E},其中V表示为图的顶点,E表示为点与点之间的边,如参考图1所示。
S4:根据S3构建的局部邻域图,计算每个点与其周围K个最近邻点的所有边的特征。
本步骤中,根据点与点之间的几何关系,可以计算某一个图的顶点和离这个顶点最近的K个点中的某一个点的边特征,记为eij=F(Xi,Xj),这里F是一个带参数的非线性函数,表示从点j到点 i的信息流动。这里的边特征可以使用以下方法获得,如:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。
在一实施例中使用点与点之间对应特征相减,则边特征为:
eij=F(Xi,Xj)=F′(Xi,Xj-Xi)
进一步可将边特征表示为:
e′ijw=act(αw×(Xj-Xi)+βw×Xi)
其中,e′ijw表示边特征,act表示激活函数,可以使用Relu,Leaky Relu等激活函数,αw和βw对应不同的参数,由网络自动学习,循环上述步骤直至求得每个顶点与周围K个最近邻点的所有边特征。
S5:将卷积层、批量归一化层和激活函数视作一个单元结构,应用v个单元结构和相应的池化层操作进行组合叠加,对上述的输出即每个点与周围K个最近邻点的所有边特征进行进一步特征学习,从而获得场景中每个顶点更高维度的所有边的特征,将其记为ψ。
S6:使用一个对称聚合操作,应用到S5的输出ψ上,输出为局部领域图顶点的K个最近点中最具有代表性的一个点的特征。重复 S3,S4,S5,S6,总共重复μ次。
对称聚合操作可以选择求最大值、求最小值、求平均值或者求和等。在一具体实施例中,对称聚合操作采用求最大值的方法,则输出为
Figure RE-GDA0003094721530000081
这里j:(i,j)∈E表示的是一个局部领域图的结构,i是这个图的顶点,j是顶点i周围的顶点,如参考图2所示。再将X′i作为新的特征维度更新步骤S2中的特征,重复S3,S4,S5,S6,总共重复μ次。
S7:S3-S6中所述的重复操作完成过后,总共生成μ个不同维度的特征。将μ个特征拼接起来,得到三维网格中点云的多层次特征。再对每个网格使用一个对称聚合操作,得到每个网格的全局特征,则一个网格用一个具有多层次特征的点来表示,再将这个点映射到S1 所建立的伪图像上构成特征图。
经骨干网络:
S8:将S7所述特征图送入骨干网络得到多尺度特征图。
本实施例中,在S7中得到的特征图送入骨干网络(BackBone),骨干网络的整体结构如参考图3所示,所述特征图进入所述骨干网络的每个模块前均先经过注意力模型,这里的模块是一个含多个单元结构的整体,其中每个单元结构是多个卷积层、批量归一化层和激活函数的组合。
在现有的骨干网络中,随着网络的加深,获取的信息就越多,特征也更加丰富,随着网络的加深会造成梯度消失的现象;越深的网络梯度的更新更加接近于随机扰动,本实施例中,在传统的骨干网络上加入了残差映射,把残差映射放入每个模块的每个单元结构中,让网络能够学习到残差映射,而不是像普通的神经网络一样,参考图4,为普通映射模型结构图与一实施例的残差映射模型结构图对比,图中,左边部分为普通的神经网络映射模型,右边为本实施例中的残差映射模型,具体地,当输入为X时,左边学习到的特征记为H(X);而残差映射学习到F(X)=H(X)-X的映射;其中,X为输入,H(X)为模块中多个单元结构,F(X)为残差。
进一步地,本实施例中考虑让神经网络模型对输入数据的不同部位的关注点不同,则其权重不同,故在网络中加入注意力模型,其整体结构如参考图5所示。本实施例中的注意力模型包括通道注意力和空间注意力两种注意力机制。具体地,
通道注意力:该模块主要利用的是特征之间的通道关系,即每个通道都包含特殊的特征关系,其结构图如图6所示,在一实施例中,通道注意力的输出CA(X)为:
CA(X)=BN(MLP(AvgPool(X)))
=BN(W1(W0AvgPool(X)+b0)+b1)
其中,X表示输入的特征图,BN为批量归一化操作,MLP为多层感知机,AvgPool为平均值池化,W0、W1均为权重,b0、b1为偏差。
空间注意力:主要利用特征间的内部空间信息生成空间注意力,,其结构图参考图7,空间注意力模块关注信息的具体位置,它是对通道注意力的一种补充,在一实施例中,空间注意力的输出SA(X)为:
Figure RE-GDA0003094721530000101
其中,X表示输入的特征图,BN为批量归一化操作,f为卷积操作,
Figure RE-GDA0003094721530000102
为卷积的个数是从第1个到第i个的嵌套卷积结构,f1 1×1为第一1x1卷积,
Figure RE-GDA0003094721530000103
为第二3x3卷积,fi 1×1为第i1x1卷积。
本实施例中的特征图进入骨干网络的每个模块前均先经过注意力模型。
重复S8得到多个不同尺度的特征图。
S9:将S8得到的多个不同尺度的特征图进行拼接得到一个多层次的特征图。
三维包围框预测:
S10:在S9所述多层次的特征图上生成大量的锚框,将所述锚框在一具体实施例中,对于每一类物体有三种朝向的锚框,分别是45°、 90°和135°,然后使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,其中判定为正样本有两种方法:1)先验框和真值框的交并比最大;2)先验框和真值框的交并比大于设定的阈值;将阈值设计为[λnegpos],将交并比大于预设第一阈值λpos的设为正样本,将交并比小于预设第二阈值λneg的设为负样本,将所述正、负样本一起输入模型计算损失。
优选地,对于大物体来说,将正样本和负样本的匹配阈值分别设置为0.6和0.45,对于中、小型物体来说,将正样本和负样本的匹配阈值分别设置为0.5和0.35;当然,在其他实施例中,也可以设置为其他参数。
S11:所述S10中使用的总损失函数Ltotal为:
Figure RE-GDA0003094721530000111
Figure RE-GDA0003094721530000112
Lcls=-αa(1-Pa)γlogPa
Ldir为朝向信息损失函数,Bdir为朝向信息超参数,Lcls为所属类别损失函数,Bcls为所属类别超参数,Lloc为位置信息损失函数,Bloc为位置信息超参数,Npos为正样本锚框的数量,(x,y,z)为物体的中心坐标,w、l、h分别为物体的宽度、长度、高度,θ为物体的朝向,SmoothL1为SmoothL1损失函数,Δb为真值框和锚框的差值,αa、γ为超参数,Pa为物体所属类别的概率。
具体地,将三维目标框的真值和锚框都定义为(x,y,z,w,l,h,θ)的 7维张量,目标框的真值和锚框的位置回归定义为:
xt=(xg-xa)/diagonal,yt=(yg-ya)/diagonal,zt=(zg-za)/ha
Figure RE-GDA0003094721530000121
Figure RE-GDA0003094721530000122
其中,xt、yt、zt分别为物体中心坐标x、y、z的人工标注的真值和锚框的偏移量、wt、lt、ht分别为物体长、宽、高的人工标注的真值和锚框的偏移量、θt为物体朝向的人工标注的真值和锚框的偏移量、diagonal为物体锚框的对角线长度:带g的下标为人工标注的真值目标框,带a的下标为锚框,然后得到位置信息损失函数为:
Figure RE-GDA0003094721530000123
接着,定义物体的朝向信息损失函数为Ldir,可使用cross_entropy 函数,使得网络能够学习到物体的朝向信息;
而对于物体所属类别损失函数Lcls,可使用是Focal loss:
Lcls=-αa(1-Pa)γlogPa
其中Pa是锚框物体类别的概率。超参数αa=0.25,γ=2,通过上述朝向信息损失函数,所属类别损失函数,位置信息损失函数最后得到总损失函数;在一实施例中,可设Bloc=2,Bcls=1,Bdir=0.2。
S12:为了优化S11中总的损失函数Ltotal,使用随机梯度下降的方法进行优化。
优选地,本实施例使用随机梯度下降的方法优化总损失函数Ltotal,将初始学习率设置为3*10-4,每10个epoch学习率衰减0.9倍,总共训练160个epochs,然后卷积神经网络根据该优化结果,反向传播至本发明方法的前面步骤中,自动地调整整个自动驾驶场景下的三维点云目标检测方法过程中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种自动驾驶场景下的三维点云目标检测方法,其特征在于,包括以下步骤:
S1:将待检测的点云数据划分至大小相同的三维网格中,固定每个三维网格中的点数量为第一预设数量,同时根据待检测范围构建伪图像;
S2:使用K最近邻算法对每个三维网格构造局部邻域图,根据所述局部邻域图中点与点的关系获取边特征,并对所述边特征进行对称聚合得到所述局部邻域图的代表点特征;
S3:重复步骤S2得到多个不同维度的代表点特征,然后将不同维度的代表点特征进行拼接后得到的多层次特征映射至所述伪图像上构成特征图;
S4:将所述特征图送入骨干网络后拼接得到多层次的特征图;
S5:在所述多层次的特征图上生成多个锚框,使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框,同时预设第一阈值与第二阈值,将交并比大于预设第一阈值的设为正样本,将交并比小于预设第二阈值的设为负样本,将所述正、负样本一起输入卷积神经网络计算损失,得到物体的朝向信息、位置信息和所属类别。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括:
当三维网格中的点数量超过第一预设数量时采用随机取样保留第一预设数量的点;
当三维网格中的点数量少于第一预设数量时采用补0保持第一预设数量的点。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括步骤:
S21:通过K最近邻算法对每个三维网格中的点构造局部邻域图,根据所述局部邻域图,以及所述局部邻域图中点与点的关系,构建非线性函数获得每个局部邻域图中的顶点和离这个顶点最近的K个点中的某一个点的第一边特征;
S22:将多个卷积层、批量归一化层和激活函数构成的单元结构与池化层叠加,并输入所述第一边特征,得到高维度第二边特征;
S23:将所述第二边特征进行对称聚合得到所述局部邻域图顶点的K个最近点中具有代表性的一个点的代表点特征。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2中的点与点之间的关系包括:点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4的步骤具体包括:
在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射;
所述特征图进入所述骨干网络的每个模块前均先经过注意力模型。
6.根据权利要求5所述的方法,其特征在于,所述注意力模型包括通道注意力与空间注意力两种注意力机制;其中,所述通道注意力为:
CA(X)=BN(MLP(AvgPool(X)))
=BN(W1(W0AvgPool(X)+b0)+b1)
其中,X表示输入的特征图,BN为批量归一化操作,MLP为多层感知机,AvgPool为平均值池化,W0、W1均为权重,b0、b1为偏差;
所述空间注意力为:
Figure FDA0002932781540000031
其中,f为卷积操作,
Figure FDA0002932781540000032
为卷积的个数是从第1个到第i个的嵌套卷积结构,f1 1×1为第一1x1卷积,
Figure FDA0002932781540000033
为第二3x3卷积,fi 1×1为第i1x1卷积。
7.根据权利要求5所述的方法,其特征在于,所述残差为:
F(X)=H(X)-X
其中,X为输入,H(X)为骨干网络的每个模块多个单元结构。
8.根据权利要求1所述的方法,其特征在于,所述步骤S5中的卷积神经网络使用的总损失函数为:
Figure FDA0002932781540000034
Figure FDA0002932781540000035
Lcls=-αa(1-Pa)γlogPa
其中,Ldir为朝向信息损失函数,Bdir为朝向信息超参数,Lcls为所属类别损失函数,Bcls为所属类别超参数,Lloc为位置信息损失函数,Bloc为位置信息超参数,Npos为正样本锚框的数量,(x,y,z)为物体的中心坐标,w、l、h分别为物体的是宽度、长度、高度,θ为物体的朝向,SmoothL1为SmoothL1损失函数,△b为真值框和锚框的差值,αa、γ为超参数,Pa为物体所属类别的概率。
9.根据权利要求1-8任一项所述的方法,其特征在于,还包括步骤:
使用随机梯度下降的方法对卷积神经网络计算的损失进行优化;
卷积神经网络根据该优化结果,自动地调整步骤S1-S4中的各个参数,最终得到物体的朝向信息、位置信息和所属类别。
CN202110154147.6A 2021-02-04 2021-02-04 一种自动驾驶场景下的三维点云目标检测方法 Pending CN113160117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110154147.6A CN113160117A (zh) 2021-02-04 2021-02-04 一种自动驾驶场景下的三维点云目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110154147.6A CN113160117A (zh) 2021-02-04 2021-02-04 一种自动驾驶场景下的三维点云目标检测方法

Publications (1)

Publication Number Publication Date
CN113160117A true CN113160117A (zh) 2021-07-23

Family

ID=76882997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110154147.6A Pending CN113160117A (zh) 2021-02-04 2021-02-04 一种自动驾驶场景下的三维点云目标检测方法

Country Status (1)

Country Link
CN (1) CN113160117A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004978A (zh) * 2021-11-04 2022-02-01 昆明理工大学 一种基于注意力机制和可变形卷积的点云目标检测方法
CN114998890A (zh) * 2022-05-27 2022-09-02 长春大学 一种基于图神经网络的三维点云目标检测算法
CN115797425A (zh) * 2023-01-19 2023-03-14 中国科学技术大学 一种基于点云鸟瞰图和由粗到精策略的激光全局定位方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200150235A1 (en) * 2018-11-08 2020-05-14 Aptiv Technologies Limited Deep learning for object detection using pillars
CN111242041A (zh) * 2020-01-15 2020-06-05 江苏大学 基于伪图像技术的激光雷达三维目标快速检测方法
CN112085735A (zh) * 2020-09-28 2020-12-15 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
US20210012555A1 (en) * 2019-07-08 2021-01-14 Waymo Llc Processing point clouds using dynamic voxelization
CN112270280A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200150235A1 (en) * 2018-11-08 2020-05-14 Aptiv Technologies Limited Deep learning for object detection using pillars
US20210012555A1 (en) * 2019-07-08 2021-01-14 Waymo Llc Processing point clouds using dynamic voxelization
CN111242041A (zh) * 2020-01-15 2020-06-05 江苏大学 基于伪图像技术的激光雷达三维目标快速检测方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112085735A (zh) * 2020-09-28 2020-12-15 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112270280A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEX H. LANG 等: "PointPillars: Fast Encoders for Object Detection from Point Clouds", 《ARXIV》 *
CHARLES R. QI 等: "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
GUOJUN WANG 等: "CenterNet3D:An Anchor free Object Detector for Autonomous Driving", 《ARXIV》 *
JUN FU 等: "Dual Attention Network for Scene Segmentation", 《ARXIV》 *
JUNBO YIN 等: "LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention", 《CVPR》 *
YUE WANG 等: "Dynamic Graph CNN for Learning on Point Clouds", 《ACM TRANSACTIONS ON GRAPHICS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004978A (zh) * 2021-11-04 2022-02-01 昆明理工大学 一种基于注意力机制和可变形卷积的点云目标检测方法
CN114998890A (zh) * 2022-05-27 2022-09-02 长春大学 一种基于图神经网络的三维点云目标检测算法
CN114998890B (zh) * 2022-05-27 2023-03-10 长春大学 一种基于图神经网络的三维点云目标检测算法
CN115797425A (zh) * 2023-01-19 2023-03-14 中国科学技术大学 一种基于点云鸟瞰图和由粗到精策略的激光全局定位方法

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
US11182644B2 (en) Method and apparatus for pose planar constraining on the basis of planar feature extraction
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
US10373027B1 (en) Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN111709416B (zh) 车牌定位方法、装置、系统及存储介质
EP3690740A1 (en) Method for optimizing hyperparameters of auto-labeling device which auto-labels training images for use in deep learning network to analyze images with high precision, and optimizing device using the same
CN113076871B (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN113160117A (zh) 一种自动驾驶场景下的三维点云目标检测方法
EP3690741B1 (en) Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
CN113706480A (zh) 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN112016463A (zh) 一种基于深度学习的车道线检测方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
CN116363532A (zh) 基于注意力机制和重参数化的无人机图像交通目标检测方法
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
CN110909656A (zh) 一种雷达与摄像机融合的行人检测方法和系统
CN117392508A (zh) 一种基于坐标注意力机制的目标检测方法和装置
CN117218545A (zh) 基于LBP特征与改进Yolov5的雷达图像检测方法
CN112597875A (zh) 一种多分支网络的抗漏检航拍目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723