CN111046781A - 一种基于三元注意力机制的鲁棒三维目标检测方法 - Google Patents

一种基于三元注意力机制的鲁棒三维目标检测方法 Download PDF

Info

Publication number
CN111046781A
CN111046781A CN201911248274.1A CN201911248274A CN111046781A CN 111046781 A CN111046781 A CN 111046781A CN 201911248274 A CN201911248274 A CN 201911248274A CN 111046781 A CN111046781 A CN 111046781A
Authority
CN
China
Prior art keywords
voxel
attention
network
attention mechanism
robust
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911248274.1A
Other languages
English (en)
Other versions
CN111046781B (zh
Inventor
白翔
刘哲
周瑜
黄腾腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911248274.1A priority Critical patent/CN111046781B/zh
Publication of CN111046781A publication Critical patent/CN111046781A/zh
Application granted granted Critical
Publication of CN111046781B publication Critical patent/CN111046781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三元注意力机制的鲁棒三维目标检测方法,即以点云数据作为输入,通过该网络,输出在点云空间中目标物的三维包围盒。步骤包括:首先将点云转化成体素形式;然后使用三元注意力机制对每个体素进行特征提取;紧接着采用一个Coarse‑to‑Fine回归方式输出最终的候选框。该方法的核心思想包括如下两部分:1)采用了一种新颖的三元注意力机制来学习每个体素的特征表示,获得鲁棒的体素特征;2)使用金字塔采样融合方式实现跨层的融合,能同时获得网络低层的高分辨率精细的特征以及高层的语义信息,从而实现对目标精确的定位。本发明相较于之前的方法,尤其是在受干扰严重以及场景复杂的情况下,本发明的方法具有很好的鲁棒性。

Description

一种基于三元注意力机制的鲁棒三维目标检测方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于三元注意力机制的鲁棒三维目标检测方法。
背景技术
近年来,随着人工智能的迅速发展,无人驾驶技术成为了一个非常热门的话题。该技术能够有效的节省人们的驾驶时间,同时能够很好地减少交通事故的发生。无人驾驶中比较重要模块便是感知模块,即要求利用汽车传感器采集的数据,能够很好地对周围环境进行感知。在此模块中,三维目标检测是一个十分核心的环节,比如道路上的车辆、行人、以及交通标志和红绿灯等。只有让车能够像人一样,懂得如何识别这类物体,无人驾驶技术才会有可能成为现实。
针对三维目标检测,按照输入数据的形式来划分,主要分为三大类。第一种,从单个视角去检测目标物,比如前视图或者鸟瞰图,但是这类方法会损失大量的三维信息,检测的效果并不好。第二种,直接从雷达采集到的点云数据中进行三维目标检测,由于点云十分稀疏,容易受到噪点的干扰,因此要提供一种具有鲁棒性的三维目标检测方案是极具挑战性的。第三种,将点云与彩色图像结合起来,一般来说,先在图像中检测到目标物,然后通过矩阵变换,将二维目标框转到三维空间中,然后在视锥中进行三维目标检测。但该方法严重依赖二维检测器的性能,并且检测速度较慢。特别地,对于复杂场景或者干扰较为严重的情形,目前的一些方法均没有较好的解决方案。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种仅仅使用点云作为输入的鲁棒的三维目标检测方法,其目的在于解决单个视角信息损失导致定位精度不准的问题,以及使用点云和彩色图像融合导致检测速度慢的问题,此外还解决对复杂场景以及干扰严重的场景目标物定位不准确的问题。
为了实现上述目的,本发明提供了一种基于三元注意力机制的鲁棒三维目标检测方法,包括:
(1)点云体素化:对于一个三维空间的点集P={pk=[xk,yk,zk,rk]T}k=1,2,...,N,其中N表示点的个数,xk,yk,zk分别表示沿着x,y,z轴的坐标值,rk表示激光雷达的反射强度,定义点云沿着x,y,z轴的长度分布范围表示为W,H,D,每个体素沿着x,y,z尺寸定义为sW,sH,sD,在进行体素化时,对于不包含任何点云的体素,则被认为是无效的体素,它们将不参与后面网络的计算,从一个点云中得到了K个有效的体素,其中第k个体素用Vk表示;
(2)体素特征提取:利用空间注意力机制得到各个体素的空间注意力Sk,利用通道注意力机制得到各个体素的通道注意力Uk,结合空间注意力和通道注意力,得到注意力变换矩阵Mk=Sk×Uk,将其归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F,基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q,并利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′;
(3)Coarse-to-Fine检测网络进行估计:Coarse-to-Fine检测网络由Coarse回归网络和Fine精调网络组成,以体素特征表示F′作为输入,首先经过Coarse回归网络,生成出粗略的候选框以及相应的打分,接着经过Fine精调网络,采用金字塔式采样方法获取物体不同层次的语义信息,并对Coarse回归网络生成的候选框进行精调,从而实现更加精准的定位。
本发明的一个实施例中,所述利用空间注意力机制得到各个体素的空间注意力sk,具体为:
对于在体素Vk中的第i个点,首先沿着通道维采用一个最大池化操作,具体表示如下:
Figure BDA0002308306340000031
其中C表示点云特征的数目;
采用如下公式进行计算:
Figure BDA0002308306340000032
其中W1,W2分别表示两个1×1卷积网络的权重参数,δ表示ReLU激活函数;
对每个体素集合V,它的空间注意力表示为
Figure BDA0002308306340000033
其中T表示每个体素中最大点的数目。
本发明的一个实施例中,利用通道注意力机制得到各个体素的通道注意力Uk,具体为:
对于在体素Vk中的第i个点,沿着空间点的维度采用一个最大池化操作,具体表示如下:
Figure BDA0002308306340000034
采用如下公式进行计算:
Figure BDA0002308306340000035
其中W1,W2分别表示两个1×1卷积网络的权重参数,δ表示ReLU激活函数;
对每个体素集合V,它的空间注意力表示为
Figure BDA0002308306340000036
其中T表示每个体素中最大点的数目。
本发明的一个实施例中,将注意力变换矩阵M归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F,具体为:
用一个SigMoid激活函数将注意力变换矩阵的值的范围变到[0,1],并与体素V进行点乘,将原始的体素通过该变换阵得到一个更具有区分度的体素特征表示F,具体计算如下:
F=SigMoid(M)·V。
本发明的一个实施例中,基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q,具体为:
首先计算出每个体素的聚类中心坐标,用一个全连接层将其变换到与F相同的通道维度,并将两者拼接起来,以此作为体素注意力分支的输入,然后通过两层的全连接层得到体素权重矩阵Q。
本发明的一个实施例中,利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′,具体为:
通过空间、通道和体素的三元注意力机制,得到最终的体素特征表示F′,其可以写为:
F′=Q·F。
本发明的一个实施例中,Coarse回归网络由依次连接的3个卷积模块组成,3个卷积模块输出的特征映射图分别为B1,B2,B3
本发明的一个实施例中,Fine精调网络采用金字塔式采样方法获取物体不同层次的语义信息,并对Coarse回归网络生成的候选框进行精调,具体为:首先,由B1经过金字塔采样操作,得到特征金字塔为
Figure BDA0002308306340000041
同理B2和B3分别得到特征金字塔为
Figure BDA0002308306340000042
Figure BDA0002308306340000043
将特征
Figure BDA0002308306340000044
i=1,2,3分别进行拼接,获得三种融合的特征映射图,通过上采样将三种特征映射图转换到一样的尺寸并拼接在一起,随后接一个卷积核大小为1×1的卷积层获得最终的特征映射图F2,在F2上进一步对区域建议子网络的候选框进行精调,从而得到更加精准的回归框。
本发明的一个实施例中,在步骤(3)中采用两阶段的联合损失作为整个网络的损失函数,具体为:
Figure BDA0002308306340000045
其中,上标1表示Coarse回归网络,上标2表示Fine精调网络,Npos表示正例的anchor数目,ΔR表示真实三维包围框与预测框之间的回归偏差,α,β,λ分别表示分类、回归以及Coarse-to-Fine网络的损失函数权衡参数,Lcls表示分类损失,Lreg表示回归损失。
本发明的一个实施例中,
分类损失采用Focal Loss,其定义为:Lcls=-η(1-p)γlog p;
其中p表示预测框的类别概率,η,γ是其超参数;
回归损失采用SmoothL1函数,其定义为:
Figure BDA0002308306340000051
定义真实三维包围框G=(xg,yg,zg,wg,lg,hg,θg)与预测框P=(xa,ya,za,wa,la,ha,θa),则它们之间的回归偏差定义为ΔR={Δxg,Δyg,Δzg,Δwg,Δlg,Δhg,Δθg},具体为:
Figure BDA0002308306340000052
Figure BDA0002308306340000053
Figure BDA0002308306340000054
Δwg=log(wg/wa);
Δlg=log(lg/la);
Δhg=log(hg/ha);
Δθg=sin(θga)。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明提出了一种新颖的三元注意力机制网络,来获得一种鲁棒的体素特征表示;
(2)采用Coarse-to-Fine的回归方式,在不引入大量计算复杂度的情况下,能得到更好的检测效果;
(3)直接基于点云实现的三维目标检测方法,不仅精度高而且能够实现实时检测。
附图说明
图1是本发明基于三元注意力机制的鲁棒三维目标检测方法的整体流程图,箭头表示数据的流向,通过联合Coarse和Fine回归的损失函数来训练整个网络;
图2是本发明实施例中的三元注意力机制进行体素特征提取模块的结构示意图;
图3是本发明实施例中的Coarse网络的结构示意图;
图4是本发明实施例中的Fine网络的结构示意图;
图5是本发明实施例中使用训练好的网络进行三维目标检测的映射到图像上的三维包围盒的可视化结果;
图6是本发明实施例中使用训练好的网络进行三维目标检测的直接在点云上检测的三维包围盒的可视化结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
SigMoid激活函数:其具体定义为:
Figure BDA0002308306340000061
在深度学习中,为了避免单纯的线性组合,在每一层的输出后加一个激活函数,以此来增加网络非线性映射的能力,此外,它还能将(-∞,+∞)范围的值,归一化到(0,1)范围内。
Anchor:可以理解成预先设定的候选框,它是一组在不同位置不同尺度的参考框,几乎覆盖了检测目标可能出现的所有位置。
Adam优化器:是由Kingma和Lei Ba两位研究人员在2014年末提出的,该方法综合考虑了梯度的一阶矩估计以及二阶矩估计来对步长进行更新。目前在深度学习中常作为为基本的优化器,目前已经集成到深度学习框架pytorch中。
Coarse-to-fine网络,直译为由粗到精或者由粗到细,即在训练过程中分为粗回归阶段和精回归阶段,粗回归阶段得到粗略的回归结果,粗回归阶段进一步精细优化,得到更精细的回归结果。
在获得鲁棒的特征方面,本发明提供了一种新颖的三元注意力机制的方法,在定位精度方面,本发明提供了一种Coarse-to-Fine联合训练的方式,Coarse回归阶段回归出粗略的候选框,Fine回归阶段进一步精调出更加精准的候选框,此外Fine回归阶段采用了金字塔采样融合的方法,能够同时获取目标物的丰富语义信息以及高分辨精细特征,使之对三维目标的定位具有很好的鲁棒性。
在检测速度方面,本发明主要方法具体为:(1)沿着Z轴对点云并没有进行划分,使得体素的数目更少;2)在进行体素化时,对于不包含任何点的体素,则被认为是无效的体素,它们将不参与后面网络的计算;3)三元注意力网络仅仅对原始点云输入进行操作,其计算复杂度很低;4)Fine精调网络中的下采样采用的是池化操作,不会引入参数,且在进行大的卷积操作时,都会使用一个1×1的卷积操作对通道进行降维。
如图1所示,本发明主要有四个实现步骤:(1)点云体素化;(2)体素特征提取;(3)三维包围盒的估计;(4)损失函数的优化。接下来将对本发明中步骤进行详细地说明。
(1)点云体素化
对于一个三维空间的点集P={pk=[xk,yk,zk,rk]T}k=1,2,...,N,其中,N表示点的个数,xk,yk,zk分别表示沿着X,Y,Z的坐标值,rk表示激光雷达的反射强度。在三维空间中点云分布是在一定范围内的,定义点云沿着X,Y,Z轴的长度分布范围表示为W,H,D,每个体素的尺寸定义为sW,sH,sD。特别地,本发明并没有沿着Z轴对点云进行划分,所以此处D=sD。在进行体素化时,对于不包含任何点的体素,则被认为是无效的体素,它们将不参与后面网络的计算。最终,从一个点云中得到了K个有效的体素,其中第k个体素用Vk表示。对于不含点的体素不参与后面网络的计算,所以可以提高方法的计算效率。
(2)体素特征提取,如图2所示,体素特征提取包括空间注意力机制,通道注意力机制和体素注意力机制;
(2.1)空间注意力机制:对于在体素Vk中的第i个点,首先沿着通道维采用一个最大池化操作,具体表示如下:
Figure BDA0002308306340000081
其中C表示点云特征的数目,紧接着,为了学习点云之间的空间相关性,采用如下公式进行计算:
Figure BDA0002308306340000082
其中W1,W2分别表示2个1×1卷积网络的权重参数,δ表示ReLU激活函数。对于所有的体素V,那么它的空间注意力可以表示为
Figure BDA0002308306340000083
Figure BDA0002308306340000084
其中T表示每个体素中最大点的数目。
(2.2)通道注意力机制:沿着空间点的维度采用一个最大池化操作,具体表示如下:
Figure BDA0002308306340000085
采用与空间注意力相同的方式,得到了
Figure BDA0002308306340000086
从而获得V的通道注意力
Figure BDA0002308306340000087
通过结合空间和通道的注意力,便能获到一个注意力变换矩阵,具体的计算如下:
M=S×U
M矩阵能够很好地描述每个体素中点以及其特征的重要性,然后用一个SigMoid激活函数将其值的范围变到[0,1],并与体素V进行点乘。那么,可以将原始的体素通过该变换阵得到一个更具有区分度的体素特征表示F,具体计算如下:
F=SigMoid(M)·V
(2.3)体素注意力机制:采用基于体素的注意力机制对每个体素的重要性进行权衡,具体为:
首先计算出每个体素的聚类中心坐标,用一个全连接层将其变换到与F相同的通道维度,并将两者拼接起来,以此作为体素注意力分支的输入,然后通过两层的全连接层得到体素权重矩阵Q。
经过上述操作,通过三元注意力机制操作(即通过空间,通道,体素这三元的注意力机制),得到最终的体素特征表示F′,其可以写为:
F′=Q·F。
(3)三维包围盒的估计
在三维空间中,三维包围盒可以由(cx,cy,cz,h,w,l,θ)这7个参数表示,其中,(cx,cy,cz)表示三维目标物的中心坐标,(h,w,l)表示三维目标物的高,宽,长。θ表示目标物的沿着竖直轴旋转的角度。
该部分采用了Coarse-to-Fine的回归方式对三维包围盒的进行估计,一个是Coarse回归网络,另一个是Fine精调网络。Coarse-to-Fine检测网络主要有Coarse回归网络和Fine精调网络组成,以体素特征表示F′作为该部分的输入,首先经过Coarse回归网络,生成出粗略的候选框以及相应的打分,紧接着,采用Fine精调网络其特点在于采用了金字塔式采样融合模块来获取物体不同层次的语义信息,并对Coarse回归网络生成的候选框进行精调,从而实现更加精准的定位。
Coarse回归网络结构如图3所示,以体素特征表示F′作为输入,最终生成粗略的候选框以及其相应的打分。Coarse回归网络主要由3个依次连接的卷积模块组成,它们输出的特征映射图分别为B1,B2,B3
Fine精调网络结构如图4所示,主要目的在Coarse生成的粗略候选框上,做进一步地精调,从而输出更加准确的框。整个网络特点在于金字塔采样融合模块,其具体操作如下:
首先,由B1经过金字塔采样操作(原则是大的feature map进行下采样,小的feature map进行上采样),得到特征金字塔为
Figure BDA0002308306340000101
同理,B2和B3分别得到特征金字塔为
Figure BDA0002308306340000102
Figure BDA0002308306340000103
为了充分利用跨层的特征,将特征
Figure BDA0002308306340000104
i=1,2,3分别进行拼接,获得三种融合的特征映射图。然后,通过一系列的上采样操作将三种特征映射图转换到一样的尺寸,并拼接在一起,这样便能同时获得高层的语义信息和低层的高分辨率的特征,随后接一个卷积核大小为1×1的卷积层从而获得最终的特征映射图F2,在F2上进一步对区域建议子网络的候选框进行精调,从而得到更加精准的回归框。
(4)损失函数的优化
为了优化网络,采用两阶段的联合损失作为整个网络的损失函数,使得预测出的候选框跟真实框尽可能接近,从而最终达到生成较为准确的三维包围框的效果。
为了描述方便,定义真实三维包围框G=(xg,yg,zg,wg,lg,hg,θg)与预测框P=(xa,ya,za,wa,la,ha,θa),则它们之间的回归偏差定义为ΔR={Δxg,Δyg,Δzg,Δwg,Δlg,Δhg,Δθg},具体为:
Δxg=(xg-xa)/da,Δyg=(yg-ya)/da,Δzg=(zg-za)/ha
Δwg=log(wg/wa),Δlg=log(lg/la),Δhg=log(hg/ha)
Δθg=sin(θga)
分类损失Lcls采用Focal Loss,其定义为:
Lcls=-η(1-p)γlog p
其中p表示预测框的类别概率,η,γ是其超参数,取值分别为0.25,2。
回归损失Lreg,采用SmoothL1函数,其定义如下:
Figure BDA0002308306340000111
本发明采用两阶段的联合损失作为整个网络的损失函数,其定义如下:
Figure BDA0002308306340000112
其中,上标1表示Coarse回归网络,上标2表示Fine精调网络,Npos表示正例的anchor数目,α,β,λ分别表示分类、回归以及Coarse-to-Fine网络的损失函数权衡参数,Lcls表示分类损失,Lreg表示回归损失。
在网络的训练过程中,采用了Adam优化器来优化损失函数,其初始学习率设置为0.0002,在单张Titan Xp显卡上大约训练160个回合,每次批处理的样本为2。
如图5所示是本发明实施例中使用训练好的网络进行三维目标检测的映射到图像上的三维包围盒的可视化结果;图6是本发明实施例中使用训练好的网络进行三维目标检测的直接在点云上检测的三维包围盒的可视化结果。
本发明提出了一种基于三元注意力机制的鲁棒三维目标检测方法。采用体素的表示形式,能够很好地将点云表示成规则的形状,便于后续的检测回归操作。此外,采用三元注意力网络来学习一种更具有区分度的体素特征表示,使之对干扰噪点有很好的鲁棒性。此外,为了获得更好的性能,采用Coarse-to-Fine的回归网络,使得定位精度进一步地提升。基于这些操作,本发明不仅实现了较高的检测精度,而且能够实时地进行目标检测。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,包括以下步骤:
(1)点云体素化:对于一个三维空间的点集P={pk=[xk,yk,zk,rk]T}k=1,2,...,N,其中N表示点的个数,xk,yk,zk分别表示沿着x,y,z轴的坐标值,rk表示激光雷达的反射强度,定义点云沿着x,y,z轴的长度分布范围表示为W,H,D,每个体素沿着x,y,z尺寸定义为sW,sH,sD,在进行体素化时,对于不包含任何点云的体素,则被认为是无效的体素,它们将不参与后面网络的计算,从一个点云中得到了K个有效的体素,其中第k个体素用Vk表示;
(2)体素特征提取:利用空间注意力机制得到各个体素的空间注意力Sk,利用通道注意力机制得到各个体素的通道注意力Uk,结合空间注意力和通道注意力,得到注意力变换矩阵Mk=Sk×Uk,将其归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F,基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q,并利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′;
(3)Coarse-to-Fine检测网络进行估计:Coarse-to-Fine检测网络由Coarse回归网络和Fine精调网络组成,以体素特征表示F′作为输入,首先经过Coarse回归网络,生成出粗略的候选框以及相应的打分,接着经过Fine精调网络,采用金字塔式采样方法获取物体不同层次的语义信息,并对Coarse回归网络生成的候选框进行精调,从而实现更加精准的定位。
2.如权利要求1所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,所述利用空间注意力机制得到各个体素的空间注意力Sk,具体为:
对于在体素Vk中的第i个点,首先沿着通道维采用一个最大池化操作,具体表示如下:其中C表示点云特征的数目;
采用如下公式进行计算:
Figure FDA0002308306330000022
其中W1,W2分别表示两个1×1卷积网络的权重参数,δ表示ReLU激活函数;
对每个体素集合V,它的空间注意力表示为
Figure FDA0002308306330000023
其中T表示每个体素中最大点的数目。
3.如权利要求1所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,利用通道注意力机制得到各个体素的通道注意力Uk,具体为:
对于在体素Vk中的第i个点,沿着空间点的维度采用一个最大池化操作,具体表示如下:
Figure FDA0002308306330000024
采用如下公式进行计算:
Figure FDA0002308306330000025
其中W1,W2分别表示两个1×1卷积网络的权重参数,δ表示ReLU激活函数;
对每个体素集合V,它的空间注意力表示为
Figure FDA0002308306330000026
其中T表示每个体素中最大点的数目。
4.如权利要求1至3任一项所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,将注意力变换矩阵M归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F,具体为:
用一个SigMoid激活函数将注意力变换矩阵的值的范围变到[0,1],并与体素V进行点乘,将原始的体素通过该变换阵得到一个更具有区分度的体素特征表示F,具体计算如下:
F=SigMoid(M)·V。
5.如权利要求1至3任一项所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q,具体为:
首先计算出每个体素的聚类中心坐标,用一个全连接层将其变换到与F相同的通道维度,并将两者拼接起来,以此作为体素注意力分支的输入,然后通过两层的全连接层得到体素权重矩阵Q。
6.如权利要求1至3任一项所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′,具体为:
通过空间、通道和体素的三元注意力机制,得到最终的体素特征表示F′,其可以写为:
F′=Q·F。
7.如权利要求1至3任一项所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,Coarse回归网络由依次连接的3个卷积模块组成,3个卷积模块输出的特征映射图分别为B1,B2,B3
8.如权利要求7所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,Fine精调网络采用金字塔式采样方法获取物体不同层次的语义信息,并对Coarse回归网络生成的候选框进行精调,具体为:
首先,由B1经过金字塔采样操作,得到特征金字塔为
Figure FDA0002308306330000031
同理B2和B3分别得到特征金字塔为
Figure FDA0002308306330000032
Figure FDA0002308306330000033
将特征
Figure FDA0002308306330000034
i=1,2,3分别进行拼接,获得三种融合的特征映射图,通过上采样将三种特征映射图转换到一样的尺寸并拼接在一起,随后接一个卷积核大小为1×1的卷积层获得最终的特征映射图F2,在F2上进一步对区域建议子网络的候选框进行精调,从而得到更加精准的回归框。
9.如权利要求1或2所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,在步骤(3)中采用两阶段的联合损失作为整个网络的损失函数,具体为:
Figure FDA0002308306330000035
其中,上标1表示Coarse回归网络,上标2表示Fine精调网络,Npos表示正例的anchor数目,ΔR表示真实三维包围框与预测框之间的回归偏差,α,β,λ分别表示分类、回归以及Coarse-to-Fine网络的损失函数权衡参数,Lcls表示分类损失,Lreg表示回归损失。
10.如权利要求9所述的基于三元注意力机制的鲁棒三维目标检测方法,其特征在于,
分类损失采用FocalLoss,其定义为:Lcls=-η(1-p)γ log p;
其中p表示预测框的类别概率,η,γ是其超参数;
回归损失采用SmoothL1函数,其定义为:
Figure FDA0002308306330000041
定义真实三维包围框G=(xg,yg,zg,wg,lg,hg,θg)与预测框P=(xa,ya,za,wa,la,ha,θa),则它们之间的回归偏差定义为ΔR={Δxg,Δyg,Δzg,Δwg,Δlg,Δha,Δθg},具体为:
Figure FDA0002308306330000042
Figure FDA0002308306330000043
Figure FDA0002308306330000044
Δwg=log(wg/wa);
Δlg=log(lg/la);
Δhg=log(hg/ha);
Δθg=sin(θga)。
CN201911248274.1A 2019-12-09 2019-12-09 一种基于三元注意力机制的鲁棒三维目标检测方法 Active CN111046781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911248274.1A CN111046781B (zh) 2019-12-09 2019-12-09 一种基于三元注意力机制的鲁棒三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911248274.1A CN111046781B (zh) 2019-12-09 2019-12-09 一种基于三元注意力机制的鲁棒三维目标检测方法

Publications (2)

Publication Number Publication Date
CN111046781A true CN111046781A (zh) 2020-04-21
CN111046781B CN111046781B (zh) 2022-05-27

Family

ID=70235136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911248274.1A Active CN111046781B (zh) 2019-12-09 2019-12-09 一种基于三元注意力机制的鲁棒三维目标检测方法

Country Status (1)

Country Link
CN (1) CN111046781B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347987A (zh) * 2020-11-30 2021-02-09 江南大学 一种多模数据融合的三维目标检测方法
CN113052109A (zh) * 2021-04-01 2021-06-29 西安建筑科技大学 一种3d目标检测系统及其3d目标检测方法
CN113177555A (zh) * 2021-05-21 2021-07-27 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113269147A (zh) * 2021-06-24 2021-08-17 浙江海康智联科技有限公司 基于空间和形状的三维检测方法、系统、存储及处理装置
CN114037743A (zh) * 2021-10-26 2022-02-11 西北大学 一种基于动态图注意力机制的秦俑三维点云鲁棒配准方法
CN115456064A (zh) * 2022-09-05 2022-12-09 江汉大学 基于点云的物体分类方法及相关设备
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN117974990A (zh) * 2024-03-29 2024-05-03 之江实验室 一种基于注意力机制和特征增强结构的点云目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543606A (zh) * 2018-11-22 2019-03-29 中山大学 一种加入注意力机制的人脸识别方法
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543606A (zh) * 2018-11-22 2019-03-29 中山大学 一种加入注意力机制的人脸识别方法
CN110020681A (zh) * 2019-03-27 2019-07-16 南开大学 基于空间注意力机制的点云特征提取方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIFENG ZHANG ET AL.: ""Single-Shot Refinement Neural Network for Object Detection"", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
王宏雁 等: ""汽车驾驶人姿态监测系统研究综述"", 《中国公路学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347987A (zh) * 2020-11-30 2021-02-09 江南大学 一种多模数据融合的三维目标检测方法
CN113052109A (zh) * 2021-04-01 2021-06-29 西安建筑科技大学 一种3d目标检测系统及其3d目标检测方法
CN113177555A (zh) * 2021-05-21 2021-07-27 西南大学 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN113269147A (zh) * 2021-06-24 2021-08-17 浙江海康智联科技有限公司 基于空间和形状的三维检测方法、系统、存储及处理装置
CN114037743A (zh) * 2021-10-26 2022-02-11 西北大学 一种基于动态图注意力机制的秦俑三维点云鲁棒配准方法
CN114037743B (zh) * 2021-10-26 2024-01-26 西北大学 一种基于动态图注意力机制的秦俑三维点云鲁棒配准方法
CN115456064A (zh) * 2022-09-05 2022-12-09 江汉大学 基于点云的物体分类方法及相关设备
CN115456064B (zh) * 2022-09-05 2024-02-02 江汉大学 基于点云的物体分类方法及相关设备
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN117974990A (zh) * 2024-03-29 2024-05-03 之江实验室 一种基于注意力机制和特征增强结构的点云目标检测方法

Also Published As

Publication number Publication date
CN111046781B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN111046781B (zh) 一种基于三元注意力机制的鲁棒三维目标检测方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN110188705B (zh) 一种适用于车载系统的远距离交通标志检测识别方法
CN111798475B (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
WO2020244653A1 (zh) 物体识别方法及装置
CN113159151B (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN111695448B (zh) 一种基于视觉传感器的路侧车辆识别方法
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN111274980B (zh) 基于yolov3和非对称卷积的小尺寸交通标志识别方法
CN111967373B (zh) 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法
CN111339830A (zh) 一种基于多模态数据特征的目标分类方法
CN113269040A (zh) 结合图象识别与激光雷达点云分割的驾驶环境感知方法
CN113920499A (zh) 一种面向复杂交通场景的激光点云三维目标检测模型及方法
CN110097047B (zh) 一种基于深度学习采用单线激光雷达的车辆检测方法
CN110599497A (zh) 一种基于深度神经网络的可行驶区域分割方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN107985189A (zh) 面向高速驾驶环境下的驾驶员变道深度预警方法
CN116486368A (zh) 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法
CN115019201A (zh) 一种基于特征精细化深度网络的弱小目标检测方法
CN114495050A (zh) 一种面向自动驾驶前向视觉检测的多任务集成检测方法
Gomez-Donoso et al. Three-dimensional reconstruction using SFM for actual pedestrian classification
CN113536920A (zh) 一种半监督三维点云目标检测方法
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
CN111666988A (zh) 一种基于多层信息融合的目标检测算法
CN116778145A (zh) 一种基于三模态数据源融合的自动驾驶三维目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant