CN115393601A - 一种基于点云数据的三维目标检测方法 - Google Patents

一种基于点云数据的三维目标检测方法 Download PDF

Info

Publication number
CN115393601A
CN115393601A CN202210544771.1A CN202210544771A CN115393601A CN 115393601 A CN115393601 A CN 115393601A CN 202210544771 A CN202210544771 A CN 202210544771A CN 115393601 A CN115393601 A CN 115393601A
Authority
CN
China
Prior art keywords
convolution
features
semantic
sparse
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210544771.1A
Other languages
English (en)
Inventor
张辉
车爱博
刘立柱
曹意宏
缪志强
钟杭
毛建旭
王耀南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210544771.1A priority Critical patent/CN115393601A/zh
Publication of CN115393601A publication Critical patent/CN115393601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于点云数据的三维目标检测方法,其主要由稀疏卷积模块提取三维点云的稀疏特征,再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征,通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融合后的特征进行特征预测,最后通过多任务检测头预测模块输出最终的检测框。本方法提出的基于注意力机制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升,大大提高了目标检测的准确性。

Description

一种基于点云数据的三维目标检测方法
技术领域
本发明属于目标检测领域,特别是涉及一种基于点云数据的三维目标检测方法。
背景技术
目标检测,作为计算机视觉的基础任务之一,其主要目的是在点云或图像序列中精 确得出各种目标的类别和位置信息。目前,基于图像的二维目标检测工作已经取得了显著进展,但由于二维目标检测对复杂场景的描述度不够,缺乏目标尺寸、姿态等物理参 数信息,在实际应用中受到一定限制,基于深度学习的三维目标检测方法具有智能分析、 自主检测及泛化能力强等特点,已逐渐应用于智能安防、自动驾驶和医疗等诸多领域。
激光雷达传感器作为感知工具进行环境感知,将得到的点云数据进行处理即可获得 大量有用信息如周围物体的三维位置、姿态、结构等。然而目前的三维目标检测方法依然存在下面三个问题:(1)回归检测物体位置时必须同时考虑低层空间特征和高层抽 象语义特征,然而提取特征映射中的高级抽象语义往往通过堆叠的卷积层而导致低级空 间信息的质量下降,不能有效地获得具有丰富空间信息的鲁棒特征;(2)初始的特征 融合不能让模型得到充分表达,甚至会严重影响最终特征融合的权重,以致检测精度无 法提升;(3)对点云数据进行训练时,训练中会遇到主要问题是Ground-Truth太少, 这大大限制了网络的收敛速度和最终性能。传统的三维目标检测方法检测精度低。
发明内容
针对以上技术问题,本发明提供一种基于点云数据的三维目标检测方法。
本发明解决其技术问题采用的技术方案是:
一种基于点云数据的三维目标检测方法,方法包括以下步骤:
步骤S100:获取数据集,对数据集进行预处理,将预处理后的数据集按照预设划分比例划分为训练集和测试集;
步骤S200:构建三维检测网络模型,三维检测网络模型包括依次连接的稀疏卷积模 块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块;
步骤S300:将训练集输入至三维检测网络模型,稀疏卷积模块用于提取训练集的图 片中的三维点云的稀疏特征,空间语义特征提取模块用于从稀疏特征中提取空间特征和 语义特征,基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合并将融 合后的特征输入多任务检测头预测模块进行目标预测得到目标预测结果,根据训练集的 图片、目标预测结果和预测的损失函数对三维检测网络模型进行反向传播更新模型的网 络参数,得到训练好的三维检测网络模型;
步骤S400:将测试集中的图片输入至训练好的三维检测网络模型,得到三维目标检 测结果。
优选地,步骤S200中的稀疏卷积模块包括4部分,每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层,这四部分分别具有2层、2层、3层、3层SSC 卷积层,在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层,最后 将稀疏的体素特征转化为密集的特征映射,并将z轴中的特征连接,生成BEV特征映 射作为下一模块的输入,步骤S300中稀疏卷积模块用于提取训练集的图片中的三维点 云的稀疏特征,包括:
步骤S310:定义稀疏卷积符号为SC(m,n,f,s):稀疏卷积在处理d维数据时候的感受野是fd,输入一个A1×A2×…×Am×m的张量Tin,经过稀疏卷积后,输出一个B1× B2×…×Bd×n的张量Tout,Ai和Bi满足一个约束条件:Bi=(Ai-f+s)/s,i=1,2,…,d;
步骤S320:为维护正常卷积操作,进行空值补零:若计算Tin中的一个元素tin= Tin(a1,a2,…,ad,m0)的稀疏卷积值,提取tin为中心在fd空间内的所有值和fd大小的核做点 乘,利用稀疏卷积将稀疏的张量Tin中把目标位置tin所在的fd空间内所有的空洞位置补充 为零,补零后再按照普通卷积计算;
步骤S330:通过子流形卷积操作进行强制清零以维护特征稀疏性,提取得到稀疏特征:为了使输出的尺寸和输入的尺寸一致,在输入张量Tin上做零值补充,在d维中 的每一维前和后补充(f-1)/2个零,其中,f是奇数,(f-1)/2为整数,则Bi=Ai+2× (f-1)/2-f+1=Ai,稀疏卷积输出的张量尺寸和输入张量是一样的,记Tin中零值区 域为Dzero,在Tout中把Dzero区域的值重写为零,最后提取得到稀疏特征。
优选地,步骤S300中空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征,包括:
步骤S340:空间语义特征提取模块包含两组卷积层,分别为空间卷积组和语义卷积组,空间卷积组用于从稀疏特征中提取空间特征并保持空间特征的尺寸与输入相同, 语义卷积组用于通过将空间特征作为输入,使层数增加一倍,空间大小减半,以获得更 高层次的抽象语义信息;
步骤S350:采用第一二维反卷积层恢复语义特征的维度,使语义特征的维度与空间特征相同,按元素顺序添加空间特征,采用第二二维反卷积层产生上采样的语义特征,将上采样的语义特征作为最终提取到的语义特征。
优选地,步骤S340中的空间卷积组和语义卷积组包括三个堆叠的卷积层,空间卷积组的三个堆叠的卷积层的卷积核大小为3×3,层数为128,语义卷积组的三个堆叠的 卷积层的卷积核大小为3×3,层数为256,在空间卷积组和语义卷积组之后均包括一个 1x1的卷积层,空间卷积组之后的卷积层的层数为128层,语义卷积组之后的卷积层的 层数为256层,第一二维反卷积层和第二二维反卷积层包括3×3的卷积核和128层步 长为2的输出层。
优选地,步骤S300中基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合得到融合后的特征,包括:
步骤S360:对空间特征和语义特征使用尺度不同的两个分支来提取通道注意力权重,其中一个分支使用全局平均池化来提取全局特征的通道注意力得到全局通道信息, 另一个分支使用point-wise卷积提取局部特征的通道注意力得到局部通道信息;
步骤S370:将计算得到的局部通道信息和全局通道信息进行融合,输出一个权重值用来对输入特征做注意力操作后得到输出;
步骤S380:将空间特征和语义特征在基于多尺度通道注意力模块的基础上进行注意力特征融合得到融合后的特征。
优选地,局部通道信息计算具体为:
L(X)=B(PWConv2(δ(B(PWConv1(X)))))
其中,PWConv1为通过1×1卷积将输入的空间特征X通道数减少为原先的
Figure BDA0003651718090000031
B表 示BatchNorm层,δ表示ReLU激活函数,PWConv2是通过1×1的卷积将通道数目恢 复成与原输入通道数目相同,局部通道信息L(X)。
优选地,步骤S370具体为:
Figure BDA0003651718090000041
其中,X'为注意力操作,
Figure BDA0003651718090000042
表示广播加法操作,X为空间特征,g(X)为全局通道信息,L(X)为局部通道信息,
Figure BDA0003651718090000043
表示两个特征图对应元素相乘,
Figure BDA0003651718090000044
表示的是多尺度通道注意力模块操作。
优选地,步骤S380具体为:
Figure BDA0003651718090000045
其中,Z∈RC×H×W是语义特征和空间特征融合后的输出特征,+表示初始特征的简单集成,融合权重M(X+Y)由0到1之间的实数组成,融合权重1-M(X+Y)由0到1 之间的实数组成,X为空间特征,Y为语义特征。
优选地,多任务检测头预测模块包括有bounding box的正负性分类、boundingbox 的IoU回归、bounding box自身的回归,以及bounding box方向的分类。
优选地,预设的损失函数,具体为:
L=Lcls+ωLbox+μLdir+λLiou
其中,ω=2.0,μ=0.2,λ=1.0,Liou为IoU预测损失,Lbox为边界框回归损失,Lcls是分类损失,Ldir是方向分类损失,L为总损失。
上述一种基于点云数据的三维目标检测方法,其主要由稀疏卷积模块提取三维点云 的稀疏特征,再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征,通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融 合后的特征进行特征预测,最后通过多任务检测头预测模块输出最终的检测框。本方法 提出的基于注意力机制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有 明显的检测精度方面的提升,大大提高了目标检测的准确性。
附图说明
图1为本发明的一种基于点云数据的三维目标检测方法的流程图;
图2为本发明的一种基于点云数据的三维目标检测方法的一较佳实施例的整体网络 结构的示意图;
图3为图2所示的整体网络结构的空间语义特征融合模块的示意图;
图4为图3所示的整体网络结构的基于注意力机制的多尺度特征融合模块的示意图;
图5为本发明的一种基于点云数据的三维目标检测方法的与其它先进结果P-R曲线 比较的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作 进一步的详细说明。
本发明针对现有的问题,提出一种基于点云数据的三维目标检测方法,一种基于点 云数据的三维目标检测方法,其主要由稀疏卷积模块提取三维点云的稀疏特征,再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征,通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融合后的特征进行特征 预测,最后通过多任务检测头预测模块输出最终的检测框。本方法提出的基于注意力机 制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面 的提升。同时本发明还运用了不同于以往方法的数据增强方法增强了模型的泛化性能, 最终将检测精度提高到优异的检测水平,与现有的先进三维目标检测方法相比,本发明 在KITTI数据上面的检测精度不分伯仲。
为了达到上述目的,本发明提供一种基于点云数据的三维目标检测方法,如图1所示,方法包括以下步骤:
步骤S100:获取数据集,对数据集进行预处理,将预处理后的数据集按照预设划分比例划分为训练集和测试集。
具体地,在数据集上进行实验验证:在KITTI 3D数据集上进行方法验证并评估,KITTI 3D数据集是自动驾驶领域三维物体检测的经典数据集,数据集包含7,481个训练 样本和7,518个测试样本。在此基础上,将训练数据进一步划分为3712个样本的训练 集和3769个样本的验证集。
实验验证前的数据处理为四种类型的数据增强,第一种类型是对整个点云的全局增 强,包括随机旋转、缩放和翻转。第二种类型是在地面真实物体周围点云的一部分上的局部增强,包括随机旋转和平移。第三种类型为首先从训练数据集中生成一个数据库, 包含所有GT的标签及其相关的点云数据(GT的3D包围框内的点),然后在训练过程中, 从这个数据库中随机选取几个ground truth,通过拼接的方式引入到当前的训练点云中。 使用这种方法可以大大增加每个点云的GT的数量,并模拟存在于不同环境中的物体。 第四种类型为将难度等级不归属于容易、中等和困难的对象过滤掉,并将相似类别的对 象作为目标,如van代替car,以缓解训练时的模型混淆。
步骤S200:构建三维检测网络模型,三维检测网络模型包括依次连接的稀疏卷积模 块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块。
具体地,三维检测网络模型的示意图如图2所示。
步骤S300:将训练集输入至三维检测网络模型,稀疏卷积模块用于提取训练集的图 片中的三维点云的稀疏特征,空间语义特征提取模块用于从稀疏特征中提取空间特征和 语义特征,基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合并将融 合后的特征输入多任务检测头预测模块进行目标预测得到目标预测结果,根据训练集的 图片、目标预测结果和预测的损失函数对三维检测网络模型进行反向传播更新模型的网 络参数,得到训练好的三维检测网络模型。
在一个实施例中,稀疏卷积模块包括4部分,每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层,这四部分分别具有2层、2层、3层、3层SSC卷积层, 在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层,最后将稀疏的 体素特征转化为密集的特征映射,并将z轴中的特征连接,生成BEV特征映射作为下 一模块的输入,步骤S300中稀疏卷积模块用于提取训练集的图片中的三维点云的稀疏 特征,包括:
步骤S310:定义稀疏卷积符号为SC(m,n,f,s):稀疏卷积在处理d维数据时候的感受野是fd,输入一个A1×A2×…×Am×m的张量Tin,经过稀疏卷积后,输出一个B1× B2×…×Bd×n的张量Tout,Ai和Bi满足一个约束条件:Bi=(Ai-f+s)/s,i=1,2,…,d;
步骤S320:为维护正常卷积操作,进行空值补零:若计算Tin中的一个元素tin= Tin(a1,a2,…,ad,m0)的稀疏卷积值,提取tin为中心在fd空间内的所有值和fd大小的核做点 乘,利用稀疏卷积将稀疏的张量Tin中把目标位置tin所在的fd空间内所有的空洞位置补充 为零,补零后再按照普通卷积计算;
步骤S330:通过子流形卷积操作进行强制清零以维护特征稀疏性,提取得到稀疏特征:为了使输出的尺寸和输入的尺寸一致,在输入张量Tin上做零值补充,在d维中 的每一维前和后补充(f-1)/2个零,其中,f是奇数,(f-1)/2为整数,则Bi=Ai+2×(f-1)/2-f+1=Ai,稀疏卷积输出的张量尺寸和输入张量是一样的,记Tin中零值区 域为Dzero,在Tout中把Dzero区域的值重写为零,最后提取得到稀疏特征。
在一个实施例中,步骤S300中空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征,包括:
步骤S340:空间语义特征提取模块包含两组卷积层,分别为空间卷积组和语义卷积组,空间卷积组用于从稀疏特征中提取空间特征并保持空间特征的尺寸与输入相同, 语义卷积组用于通过将空间特征作为输入,使层数增加一倍,空间大小减半,以获得更 高层次的抽象语义信息;
步骤S350:采用第一二维反卷积层恢复语义特征的维度,使语义特征的维度与空间特征相同,按元素顺序添加空间特征,采用第二二维反卷积层产生上采样的语义特征,将上采样的语义特征作为最终提取到的语义特征。
在一个实施例中,步骤S340中的空间卷积组和语义卷积组包括三个堆叠的卷积层, 空间卷积组的三个堆叠的卷积层的卷积核大小为3×3,层数为128,语义卷积组的三个堆叠的卷积层的卷积核大小为3×3,层数为256,在空间卷积组和语义卷积组之后均包 括一个1x1的卷积层,空间卷积组之后的卷积层的层数为128层,语义卷积组之后的卷 积层的层数为256层,第一二维反卷积层和第二二维反卷积层包括3×3的卷积核和128 层步长为2的输出层。
在一个实施例中,如图3、图4所示,步骤S300中所述基于注意力机制的多尺度 特征融合模块进行所述空间特征和所述语义特征融合得到融合后的特征,包括:
步骤S360:对所述空间特征和所述语义特征使用尺度不同的两个分支来提取通道注意力权重,其中一个分支使用全局平均池化来提取全局特征的通道注意力得到全局通道信息,另一个分支使用point-wise卷积提取局部特征的通道注意力得到局部通道信息;
步骤S370:将计算得到的所述局部通道信息和所述全局通道信息进行融合,输出一个权重值用来对输入特征做注意力操作后得到输出;
步骤S380:将所述空间特征和所述语义特征在基于多尺度通道注意力模块的基础上进行注意力特征融合得到融合后的特征。
具体地,每个分支选择使用的卷积是1×1卷积或称之为Point-Wise卷积(PWConv)作为局部通道信息整合器,利用不同通道的对应像素点做信息交互。在计算局部通道信 息时使用了一个瓶颈结构。
在一个实施例中,所述局部通道信息计算具体为:
L(X)=B(PWConv2(δ(B(PWConv1(X)))))
其中,PWConv1为通过1×1卷积将输入的空间特征X通道数减少为原先的
Figure BDA0003651718090000081
B表 示BatchNorm层,δ表示ReLU激活函数,PWConv2是通过1×1的卷积将通道数目恢 复成与原输入通道数目相同,L(X)为局部通道信息。
具体地,局部通道信息L(X)的形状和输入X的形状保持一致。
在一个实施例中,步骤S370具体为:
Figure BDA0003651718090000082
其中,X'为注意力操作,
Figure BDA0003651718090000083
表示广播加法操作,X为空间特征,g(X)为全局通道信息,L(X)为局部通道信息,
Figure BDA0003651718090000084
表示两个特征图对应元素相乘,
Figure BDA0003651718090000085
表示的是多尺度通道注意力模块操作。
在一个实施例中,步骤S380具体为:
Figure BDA0003651718090000086
其中,Z∈RC×H×W是语义特征和空间特征融合后的输出特征,+表示初始特征的简单集成,融合权重M(X+Y)由0到1之间的实数组成,融合权重1-M(X+Y)由0到1 之间的实数组成,X为空间特征,Y为语义特征。
在一个实施例中,多任务检测头预测模块包括有bounding box的正负性分类、boundingbox的IoU回归、boundingbox自身的回归,以及boundingbox方向的分类。
在一个实施例中,预设的损失函数,具体为:
L=Lcls+ωLbox+μLdir+λLiou
其中,ω=2.0,μ=0.2,λ=1.0,Liou为IoU预测损失,Lbox为边界框回归损失,Lcls是分类损失,Ldir是方向分类损失,L为总损失。
进行方法验证并评估中的评估方法有Precision-Recall曲线定性分析模型精度,使用 average precision(AP)平均精度定量分析模型精度;对于物体方向检测,采用Average Orientation Similarity(AOS)平均方向相似度来衡量检测结果与Ground truth的方向相 似程度。
进一步地,评估指标一共四种,APbbox-2D检测框的准确率,APbev-BEV视图下检 测框的准确率,AP3d-3D检测框的准确率,APaos-检测目标旋转角度的准确率。
进一步地,为了评估边界框定位的准确性,使用检测框与ground truth框之间的重 合度来衡量网络预测的3D框和对应真值3D框之间的差异,如下式:
Figure BDA0003651718090000091
式中pre表示预测结果,gt表示真实样本,s为框的面积,IoU阈值设为0.7。
进一步地,物体检测任务采用PR曲线和AP值评估模型精度,给定不同阈值t,得 到不同的召回率和精确率,从而可以绘制P-R曲线,精确度(P)是真实正样本(TP) 的数量除以真实正样本和错误正样本(FP)数量的和。召回率(R)是真实正样本(TP) 的数量除以真实正样本(TP)和错误负样本(FN)数量的和。计算公式如下,
Figure BDA0003651718090000092
Figure BDA0003651718090000093
式中TP是IOU大于等于阈值的正确预测,即预测为真实框且与真实框的IOU大 于等于预设阈值的个数,FP是IOU小于阈值的错误预测,即预测为真实框但是与真实 样本的IOU小于预设阈值的个数。FN是未被检测出的车辆框的个数。
进一步地,评价精确率AP是P-R曲线的积分值,当t是离散的情况时,AP就是 不同t的召回率对应的精确率的平均值。如下式,
Figure BDA0003651718090000094
式中仅仅评估目标高度大于25pixel的预测结果,将易混淆的类别视为同一类以减 少假阳性率,并且使用41个等间距recall上的精确值的平均值近似计算分类器的AP。
进一步地,对于物体方向预测,使用平均方向相似性,Average OrientationSimilarity (AOS)。该指标被定义为:
Figure BDA0003651718090000095
式中r代表物体检测的召回率recall。在因变量r下,方向相似性s∈[0,1]被定义为 所有预测样本与ground truth余弦距离的归一化:
Figure BDA0003651718090000101
其中D(r)表示在召回率r下所有预测为正样本的集合,
Figure BDA0003651718090000102
表示检出物体i的预测角度与ground truth的差。如果检出i已经匹配到ground truth(IoU至少50%)设置δi=1,否则δi=0。
表1网络性能对比
Figure BDA0003651718090000103
进一步地,不同方法在KITTI三维目标检测测试集上的评价结果如表1所示,对于每种方法,绘制了P-R曲线,并标注了中等检测难度的AP值,本发明方法如虚线所示。 如图5所示为本发明的一种基于点云数据的三维目标检测方法的与其它先进结果P-R曲 线比较的示意图,在不同的查全率设置下,本发明的方法优于先进的方法,说明本发明 的方法获得了更好的检测覆盖率和准确率。
在KITTI 3D数据集上进行方法验证并评估中的实验验证,首先对对于KITTI数据集,X轴检测范围为[0,70.4]m,Y轴检测范围为[-40,40]m,Z轴检测范围为[-3,1]m,每个 轴用体素大小(0.05m,0.05m,0.1m)的网格进行体素化。
进一步地,KITTI 3D数据集中检测目标使用固定尺寸的锚框,锚框是基于KITTI训练集中所有GT(ground truth)的尺寸和中心位置的平均值,旋转0度和90度。对于汽 车,使用一个尺寸为ω=1.56m,中心在z=-1.0m的锚框。
进一步地,实验验证使用的是带有余弦退火学习率的ADAM优化器在单个GPU卡 上以4个批次的规模训练本文的模型,训练步长为60。
步骤S400:将测试集中的图片输入至训练好的三维检测网络模型,得到三维目标检 测结果。
本发明能够取得下列有益效果:本发明所设计的三维检测网络模型可用于基于点云 数据的三维检测,将此网络模型应用于自动驾驶系统中,可大幅提升目标检测准确率,对于实现安全自动驾驶尤为重要,并且提供车辆在三维世界中的位置、大小和朝向等信息,本发明提出的基于注意力机制的多尺度特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升,同时本发明还运用了不同于以往方法的数据增强方法增强了模型的泛化性能,本发明在公共数据集KITTI数据集上面的测试集中汽 车检测方面得到了中等检测难度AP值为83.77%的检测结果,属于检测效果较为优异的 三维目标检测方法。
以上对本发明所提供的一种基于点云数据的三维目标检测方法进行了详细介绍。本 文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用 于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落 入本发明权利要求的保护范围内。

Claims (10)

1.一种基于点云数据的三维目标检测方法,其特征在于,所述方法包括以下步骤:
步骤S100:获取数据集,对所述数据集进行预处理,将预处理后的数据集按照预设划分比例划分为训练集和测试集;
步骤S200:构建三维检测网络模型,所述三维检测网络模型包括依次连接的稀疏卷积模块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块;
步骤S300:将所述训练集输入至所述三维检测网络模型,所述稀疏卷积模块用于提取所述训练集的图片中的三维点云的稀疏特征,所述空间语义特征提取模块用于从所述稀疏特征中提取空间特征和语义特征,所述基于注意力机制的多尺度特征融合模块进行所述空间特征和所述语义特征融合并将融合后的特征输入所述多任务检测头预测模块进行目标预测得到目标预测结果,根据所述训练集的图片、所述目标预测结果和预测的损失函数对所述三维检测网络模型进行反向传播更新所述模型的网络参数,得到训练好的三维检测网络模型;
步骤S400:将所述测试集中的图片输入至所述训练好的三维检测网络模型,得到三维目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述稀疏卷积模块包括4部分,每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层,这四部分分别具有2层、2层、3层、3层SSC卷积层,在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层,最后将稀疏的体素特征转化为密集的特征映射,并将z轴中的特征连接,生成BEV特征映射作为下一模块的输入,步骤S300中所述稀疏卷积模块用于提取所述训练集的图片中的三维点云的稀疏特征,包括:
步骤S310:定义稀疏卷积符号为SC(m,n,f,s):稀疏卷积在处理d维数据时候的感受野是fd,输入一个A1×A2×…×Am×m的张量Tin,经过稀疏卷积后,输出一个B1×B2×…×Bd×n的张量Tout,Ai和Bi满足一个约束条件:Bi=(Ai-f+s)/s,i=1,2,…,d;
步骤S320:为维护正常卷积操作,进行空值补零:若计算Tin中的一个元素tin=Tin(a1,a2,…,ad,m0)的稀疏卷积值,提取tin为中心在fd空间内的所有值和fd大小的核做点乘,利用稀疏卷积将稀疏的张量Tin中把目标位置tin所在的fd空间内所有的空洞位置补充为零,补零后再按照普通卷积计算;
步骤S330:通过子流形卷积操作进行强制清零以维护特征稀疏性,提取得到稀疏特征:为了使输出的尺寸和输入的尺寸一致,在输入张量Tin上做零值补充,在d维中的每一维前和后补充(f-1)/2个零,其中,f是奇数,(f-1)/2为整数,则Bi=Ai+2×(f-1)/2-f+1=Ai,稀疏卷积输出的张量尺寸和输入张量是一样的,记Tin中零值区域为Dzero,在Tout中把Dzero区域的值重写为零,最后提取得到稀疏特征。
3.根据权利要求2所述的方法,其特征在于,步骤S300中所述空间语义特征提取模块用于从所述稀疏特征中提取空间特征和语义特征,包括:
步骤S340:所述空间语义特征提取模块包含两组卷积层,分别为空间卷积组和语义卷积组,所述空间卷积组用于从所述稀疏特征中提取空间特征并保持所述空间特征的尺寸与输入相同,所述语义卷积组用于通过将所述空间特征作为输入,使层数增加一倍,空间大小减半,以获得更高层次的抽象语义信息;
步骤S350:采用第一二维反卷积层恢复所述语义特征的维度,使所述语义特征的维度与所述空间特征相同,按元素顺序添加所述空间特征,采用第二二维反卷积层产生上采样的语义特征,将所述上采样的语义特征作为最终提取到的语义特征。
4.根据权利要求3所述的方法,其特征在于,步骤S340中的所述空间卷积组和所述语义卷积组包括三个堆叠的卷积层,所述空间卷积组的三个堆叠的卷积层的卷积核大小为3×3,层数为128,所述语义卷积组的三个堆叠的卷积层的卷积核大小为3×3,层数为256,在所述空间卷积组和所述语义卷积组之后均包括一个1x1的卷积层,所述空间卷积组之后的卷积层的层数为128层,所述语义卷积组之后的卷积层的层数为256层,所述第一二维反卷积层和所述第二二维反卷积层包括3×3的卷积核和128层步长为2的输出层。
5.根据权利要求4所述的方法,其特征在于,步骤S300中所述基于注意力机制的多尺度特征融合模块进行所述空间特征和所述语义特征融合得到融合后的特征,包括:
步骤S360:对所述空间特征和所述语义特征使用尺度不同的两个分支来提取通道注意力权重,其中一个分支使用全局平均池化来提取全局特征的通道注意力得到全局通道信息,另一个分支使用point-wise卷积提取局部特征的通道注意力得到局部通道信息;
步骤S370:将计算得到的所述局部通道信息和所述全局通道信息进行融合,输出一个权重值用来对输入特征做注意力操作后得到输出;
步骤S380:将所述空间特征和所述语义特征在基于多尺度通道注意力模块的基础上进行注意力特征融合得到融合后的特征。
6.根据权利要求5所述的方法,其特征在于,所述局部通道信息计算具体为:
L(X)=B(PWConv2(δ(B(PWConv1(X)))))
其中,PWConv1为通过1×1卷积将输入的空间特征X通道数减少为原先的
Figure FDA0003651718080000031
B表示BatchNorm层,δ表示ReLU激活函数,PWConv2是通过1×1的卷积将通道数目恢复成与原输入通道数目相同,局部通道信息L(X)。
7.根据权利要求6所述的方法,其特征在于,步骤S370具体为:
Figure FDA0003651718080000032
其中,X'为注意力操作,
Figure FDA0003651718080000033
表示广播加法操作,X为空间特征,g(X)为全局通道信息,L(X)为局部通道信息,
Figure FDA0003651718080000034
表示两个特征图对应元素相乘,
Figure FDA0003651718080000035
表示的是多尺度通道注意力模块操作。
8.根据权利要求7所述的方法,其特征在于,步骤S380具体为:
Figure FDA0003651718080000036
其中,Z∈RC×H×W是语义特征和空间特征融合后的输出特征,+表示初始特征的简单集成,融合权重M(X+Y)由0到1之间的实数组成,融合权重1-M(X+Y)由0到1之间的实数组成,X为空间特征,Y为语义特征。
9.根据权利要求8所述的方法,其特征在于,所述多任务检测头预测模块包括有bounding box的正负性分类、bounding box的IoU回归、bounding box自身的回归,以及boundingbox方向的分类。
10.根据权利要求9所述的方法,其特征在于,预设的损失函数,具体为:
L=Lcls+ωLbox+μLdir+λLiou
其中,ω=2.0,μ=0.2,λ=1.0,Liou为IoU预测损失,Lbox为边界框回归损失,Lcls是分类损失,Ldir是方向分类损失,L为总损失。
CN202210544771.1A 2022-05-19 2022-05-19 一种基于点云数据的三维目标检测方法 Pending CN115393601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544771.1A CN115393601A (zh) 2022-05-19 2022-05-19 一种基于点云数据的三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544771.1A CN115393601A (zh) 2022-05-19 2022-05-19 一种基于点云数据的三维目标检测方法

Publications (1)

Publication Number Publication Date
CN115393601A true CN115393601A (zh) 2022-11-25

Family

ID=84115536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544771.1A Pending CN115393601A (zh) 2022-05-19 2022-05-19 一种基于点云数据的三维目标检测方法

Country Status (1)

Country Link
CN (1) CN115393601A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830588A (zh) * 2023-02-16 2023-03-21 天翼交通科技有限公司 一种基于点云的目标检测方法、系统、存储介质及设备
CN117173655A (zh) * 2023-08-28 2023-12-05 南京航空航天大学 基于语义传播和跨注意力机制的多模态3d目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830588A (zh) * 2023-02-16 2023-03-21 天翼交通科技有限公司 一种基于点云的目标检测方法、系统、存储介质及设备
CN117173655A (zh) * 2023-08-28 2023-12-05 南京航空航天大学 基于语义传播和跨注意力机制的多模态3d目标检测方法

Similar Documents

Publication Publication Date Title
Uhrig et al. Sparsity invariant cnns
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
Zhi et al. LightNet: A Lightweight 3D Convolutional Neural Network for Real-Time 3D Object Recognition.
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN111832655B (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN109711410A (zh) 一种三维物体快速分割和识别方法、装置及系统
CN111242041B (zh) 基于伪图像技术的激光雷达三维目标快速检测方法
CN112613378B (zh) 3d目标检测方法、系统、介质及终端
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN113706480B (zh) 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN115393601A (zh) 一种基于点云数据的三维目标检测方法
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN111241989A (zh) 图像识别方法及装置、电子设备
WO2023193401A1 (zh) 点云检测模型训练方法、装置、电子设备及存储介质
Liu et al. 3D Point cloud analysis
EP3449462B1 (en) Mesh denoising
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
CN116279592A (zh) 一种用于无人物流车的可行驶区域划分方法
CN114358133B (zh) 一种基于语义辅助双目视觉slam检测回环帧的方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
Gomez-Donoso et al. Three-dimensional reconstruction using SFM for actual pedestrian classification
Shin et al. Loop closure detection in simultaneous localization and mapping using learning based local patch descriptor
CN112634447A (zh) 一种露头岩层分层方法、装置、设备及存储介质
Chen et al. 3D object classification with point convolution network
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination