CN111046781A

CN111046781A - 一种基于三元注意力机制的鲁棒三维目标检测方法

Info

Publication number: CN111046781A
Application number: CN201911248274.1A
Authority: CN
Inventors: 白翔; 刘哲; 周瑜; 黄腾腾
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-21
Anticipated expiration: 2039-12-09
Also published as: CN111046781B

Abstract

本发明公开了一种基于三元注意力机制的鲁棒三维目标检测方法，即以点云数据作为输入，通过该网络，输出在点云空间中目标物的三维包围盒。步骤包括：首先将点云转化成体素形式；然后使用三元注意力机制对每个体素进行特征提取；紧接着采用一个Coarse‑to‑Fine回归方式输出最终的候选框。该方法的核心思想包括如下两部分：1)采用了一种新颖的三元注意力机制来学习每个体素的特征表示，获得鲁棒的体素特征；2)使用金字塔采样融合方式实现跨层的融合，能同时获得网络低层的高分辨率精细的特征以及高层的语义信息，从而实现对目标精确的定位。本发明相较于之前的方法，尤其是在受干扰严重以及场景复杂的情况下，本发明的方法具有很好的鲁棒性。

Description

一种基于三元注意力机制的鲁棒三维目标检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于三元注意力机制的鲁棒三维目标检测方法。

背景技术

近年来，随着人工智能的迅速发展，无人驾驶技术成为了一个非常热门的话题。该技术能够有效的节省人们的驾驶时间，同时能够很好地减少交通事故的发生。无人驾驶中比较重要模块便是感知模块，即要求利用汽车传感器采集的数据，能够很好地对周围环境进行感知。在此模块中，三维目标检测是一个十分核心的环节，比如道路上的车辆、行人、以及交通标志和红绿灯等。只有让车能够像人一样，懂得如何识别这类物体，无人驾驶技术才会有可能成为现实。

针对三维目标检测，按照输入数据的形式来划分，主要分为三大类。第一种，从单个视角去检测目标物，比如前视图或者鸟瞰图，但是这类方法会损失大量的三维信息，检测的效果并不好。第二种，直接从雷达采集到的点云数据中进行三维目标检测，由于点云十分稀疏，容易受到噪点的干扰，因此要提供一种具有鲁棒性的三维目标检测方案是极具挑战性的。第三种，将点云与彩色图像结合起来，一般来说，先在图像中检测到目标物，然后通过矩阵变换，将二维目标框转到三维空间中，然后在视锥中进行三维目标检测。但该方法严重依赖二维检测器的性能，并且检测速度较慢。特别地，对于复杂场景或者干扰较为严重的情形，目前的一些方法均没有较好的解决方案。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种仅仅使用点云作为输入的鲁棒的三维目标检测方法，其目的在于解决单个视角信息损失导致定位精度不准的问题，以及使用点云和彩色图像融合导致检测速度慢的问题，此外还解决对复杂场景以及干扰严重的场景目标物定位不准确的问题。

为了实现上述目的，本发明提供了一种基于三元注意力机制的鲁棒三维目标检测方法，包括：

(1)点云体素化：对于一个三维空间的点集P＝{p_k＝[x_k，y_k，z_k，r_k]^T}_{k＝1，2，...，N}，其中N表示点的个数，x_k，y_k，z_k分别表示沿着x，y，z轴的坐标值，r_k表示激光雷达的反射强度，定义点云沿着x，y，z轴的长度分布范围表示为W，H，D，每个体素沿着x，y，z尺寸定义为s_W，s_H，s_D，在进行体素化时，对于不包含任何点云的体素，则被认为是无效的体素，它们将不参与后面网络的计算，从一个点云中得到了K个有效的体素，其中第k个体素用V^k表示；

(2)体素特征提取：利用空间注意力机制得到各个体素的空间注意力S^k，利用通道注意力机制得到各个体素的通道注意力U^k，结合空间注意力和通道注意力，得到注意力变换矩阵M^k＝S^k×U^k，将其归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F，基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q，并利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′；

(3)Coarse-to-Fine检测网络进行估计：Coarse-to-Fine检测网络由Coarse回归网络和Fine精调网络组成，以体素特征表示F′作为输入，首先经过Coarse回归网络，生成出粗略的候选框以及相应的打分，接着经过Fine精调网络，采用金字塔式采样方法获取物体不同层次的语义信息，并对Coarse回归网络生成的候选框进行精调，从而实现更加精准的定位。

本发明的一个实施例中，所述利用空间注意力机制得到各个体素的空间注意力s^k，具体为：

对于在体素V^k中的第i个点，首先沿着通道维采用一个最大池化操作，具体表示如下：

其中C表示点云特征的数目；

采用如下公式进行计算：

其中W₁，W₂分别表示两个1×1卷积网络的权重参数，δ表示ReLU激活函数；

对每个体素集合V，它的空间注意力表示为

其中T表示每个体素中最大点的数目。

本发明的一个实施例中，利用通道注意力机制得到各个体素的通道注意力U^k，具体为：

对于在体素V^k中的第i个点，沿着空间点的维度采用一个最大池化操作，具体表示如下：

采用如下公式进行计算：

对每个体素集合V，它的空间注意力表示为

其中T表示每个体素中最大点的数目。

本发明的一个实施例中，将注意力变换矩阵M归一化并和体素V点乘处理得到联合空间和通道注意力的体素特征表示F，具体为：

用一个SigMoid激活函数将注意力变换矩阵的值的范围变到[0，1]，并与体素V进行点乘，将原始的体素通过该变换阵得到一个更具有区分度的体素特征表示F，具体计算如下：

F＝SigMoid(M)·V。

本发明的一个实施例中，基于体素的注意力机制对每个体素的重要性进行权衡获得体素注意力权重矩阵Q，具体为：

首先计算出每个体素的聚类中心坐标，用一个全连接层将其变换到与F相同的通道维度，并将两者拼接起来，以此作为体素注意力分支的输入，然后通过两层的全连接层得到体素权重矩阵Q。

本发明的一个实施例中，利用体素注意力权重矩阵Q和体素特征表示F得到一个更加综合且鲁棒的体素特征表示F′，具体为：

通过空间、通道和体素的三元注意力机制，得到最终的体素特征表示F′，其可以写为：

F′＝Q·F。

本发明的一个实施例中，Coarse回归网络由依次连接的3个卷积模块组成，3个卷积模块输出的特征映射图分别为B₁，B₂，B₃。

本发明的一个实施例中，Fine精调网络采用金字塔式采样方法获取物体不同层次的语义信息，并对Coarse回归网络生成的候选框进行精调，具体为：首先，由B₁经过金字塔采样操作，得到特征金字塔为

同理B₂和B₃分别得到特征金字塔为

和

将特征

i＝1，2，3分别进行拼接，获得三种融合的特征映射图，通过上采样将三种特征映射图转换到一样的尺寸并拼接在一起，随后接一个卷积核大小为1×1的卷积层获得最终的特征映射图F₂，在F₂上进一步对区域建议子网络的候选框进行精调，从而得到更加精准的回归框。

本发明的一个实施例中，在步骤(3)中采用两阶段的联合损失作为整个网络的损失函数，具体为：

其中，上标1表示Coarse回归网络，上标2表示Fine精调网络，N_pos表示正例的anchor数目，ΔR表示真实三维包围框与预测框之间的回归偏差，α，β，λ分别表示分类、回归以及Coarse-to-Fine网络的损失函数权衡参数，L_cls表示分类损失，L_reg表示回归损失。

本发明的一个实施例中，

分类损失采用Focal Loss，其定义为：L_cls＝-η(1-p)^γlog p；

其中p表示预测框的类别概率，η，γ是其超参数；

回归损失采用SmoothL1函数，其定义为：

定义真实三维包围框G＝(x_g，y_g，z_g，w_g，l_g，h_g，θ_g)与预测框P＝(x_a，y_a，z_a，w_a，l_a，h_a，θ_a)，则它们之间的回归偏差定义为ΔR＝{Δx_g，Δy_g，Δz_g，Δw_g，Δl_g，Δh_g，Δθ_g}，具体为：

Δw_g＝log(w_g/w_a)；

Δl_g＝log(l_g/l_a)；

Δh_g＝log(h_g/h_a)；

Δθ_g＝sin(θ_g-θ_a)。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明提出了一种新颖的三元注意力机制网络，来获得一种鲁棒的体素特征表示；

(2)采用Coarse-to-Fine的回归方式，在不引入大量计算复杂度的情况下，能得到更好的检测效果；

(3)直接基于点云实现的三维目标检测方法，不仅精度高而且能够实现实时检测。

附图说明

图1是本发明基于三元注意力机制的鲁棒三维目标检测方法的整体流程图，箭头表示数据的流向，通过联合Coarse和Fine回归的损失函数来训练整个网络；

图2是本发明实施例中的三元注意力机制进行体素特征提取模块的结构示意图；

图3是本发明实施例中的Coarse网络的结构示意图；

图4是本发明实施例中的Fine网络的结构示意图；

图5是本发明实施例中使用训练好的网络进行三维目标检测的映射到图像上的三维包围盒的可视化结果；

图6是本发明实施例中使用训练好的网络进行三维目标检测的直接在点云上检测的三维包围盒的可视化结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

SigMoid激活函数：其具体定义为：

在深度学习中，为了避免单纯的线性组合，在每一层的输出后加一个激活函数，以此来增加网络非线性映射的能力，此外，它还能将(-∞,+∞)范围的值，归一化到(0，1)范围内。

Anchor：可以理解成预先设定的候选框，它是一组在不同位置不同尺度的参考框，几乎覆盖了检测目标可能出现的所有位置。

Adam优化器：是由Kingma和Lei Ba两位研究人员在2014年末提出的，该方法综合考虑了梯度的一阶矩估计以及二阶矩估计来对步长进行更新。目前在深度学习中常作为为基本的优化器，目前已经集成到深度学习框架pytorch中。

Coarse-to-fine网络，直译为由粗到精或者由粗到细，即在训练过程中分为粗回归阶段和精回归阶段，粗回归阶段得到粗略的回归结果，粗回归阶段进一步精细优化，得到更精细的回归结果。

在获得鲁棒的特征方面，本发明提供了一种新颖的三元注意力机制的方法，在定位精度方面，本发明提供了一种Coarse-to-Fine联合训练的方式，Coarse回归阶段回归出粗略的候选框，Fine回归阶段进一步精调出更加精准的候选框，此外Fine回归阶段采用了金字塔采样融合的方法，能够同时获取目标物的丰富语义信息以及高分辨精细特征，使之对三维目标的定位具有很好的鲁棒性。

在检测速度方面，本发明主要方法具体为：(1)沿着Z轴对点云并没有进行划分，使得体素的数目更少；2)在进行体素化时，对于不包含任何点的体素，则被认为是无效的体素，它们将不参与后面网络的计算；3)三元注意力网络仅仅对原始点云输入进行操作，其计算复杂度很低；4)Fine精调网络中的下采样采用的是池化操作，不会引入参数，且在进行大的卷积操作时，都会使用一个1×1的卷积操作对通道进行降维。

如图1所示，本发明主要有四个实现步骤：(1)点云体素化；(2)体素特征提取；(3)三维包围盒的估计；(4)损失函数的优化。接下来将对本发明中步骤进行详细地说明。

(1)点云体素化

对于一个三维空间的点集P＝{p_k＝[x_k,y_k,z_k,r_k]^T}_{k＝1,2,...,N}，其中，N表示点的个数，x_k,y_k,z_k分别表示沿着X,Y,Z的坐标值，r_k表示激光雷达的反射强度。在三维空间中点云分布是在一定范围内的，定义点云沿着X,Y,Z轴的长度分布范围表示为W，H，D，每个体素的尺寸定义为s_W，s_H，s_D。特别地，本发明并没有沿着Z轴对点云进行划分，所以此处D＝s_D。在进行体素化时，对于不包含任何点的体素，则被认为是无效的体素，它们将不参与后面网络的计算。最终，从一个点云中得到了K个有效的体素，其中第k个体素用V^k表示。对于不含点的体素不参与后面网络的计算，所以可以提高方法的计算效率。

(2)体素特征提取，如图2所示，体素特征提取包括空间注意力机制，通道注意力机制和体素注意力机制；

(2.1)空间注意力机制：对于在体素V^k中的第i个点，首先沿着通道维采用一个最大池化操作，具体表示如下：

其中C表示点云特征的数目，紧接着，为了学习点云之间的空间相关性，采用如下公式进行计算：

其中W₁，W₂分别表示2个1×1卷积网络的权重参数，δ表示ReLU激活函数。对于所有的体素V，那么它的空间注意力可以表示为

其中T表示每个体素中最大点的数目。

(2.2)通道注意力机制：沿着空间点的维度采用一个最大池化操作，具体表示如下：

采用与空间注意力相同的方式，得到了

从而获得V的通道注意力

通过结合空间和通道的注意力，便能获到一个注意力变换矩阵，具体的计算如下：

M＝S×U

M矩阵能够很好地描述每个体素中点以及其特征的重要性，然后用一个SigMoid激活函数将其值的范围变到[0，1]，并与体素V进行点乘。那么，可以将原始的体素通过该变换阵得到一个更具有区分度的体素特征表示F，具体计算如下：

F＝SigMoid(M)·V

(2.3)体素注意力机制：采用基于体素的注意力机制对每个体素的重要性进行权衡，具体为：

经过上述操作，通过三元注意力机制操作(即通过空间，通道，体素这三元的注意力机制)，得到最终的体素特征表示F′，其可以写为：

F′＝Q·F。

(3)三维包围盒的估计

在三维空间中，三维包围盒可以由(c_x，c_y，c_z，h，w，l，θ)这7个参数表示，其中，(c_x，c_y，c_z)表示三维目标物的中心坐标，(h，w，l)表示三维目标物的高，宽，长。θ表示目标物的沿着竖直轴旋转的角度。

该部分采用了Coarse-to-Fine的回归方式对三维包围盒的进行估计，一个是Coarse回归网络，另一个是Fine精调网络。Coarse-to-Fine检测网络主要有Coarse回归网络和Fine精调网络组成，以体素特征表示F′作为该部分的输入，首先经过Coarse回归网络，生成出粗略的候选框以及相应的打分，紧接着，采用Fine精调网络其特点在于采用了金字塔式采样融合模块来获取物体不同层次的语义信息，并对Coarse回归网络生成的候选框进行精调，从而实现更加精准的定位。

Coarse回归网络结构如图3所示，以体素特征表示F′作为输入，最终生成粗略的候选框以及其相应的打分。Coarse回归网络主要由3个依次连接的卷积模块组成，它们输出的特征映射图分别为B₁，B₂，B₃。

Fine精调网络结构如图4所示，主要目的在Coarse生成的粗略候选框上，做进一步地精调，从而输出更加准确的框。整个网络特点在于金字塔采样融合模块，其具体操作如下：

首先，由B₁经过金字塔采样操作(原则是大的feature map进行下采样，小的feature map进行上采样)，得到特征金字塔为

同理，B₂和B₃分别得到特征金字塔为

和

为了充分利用跨层的特征，将特征

i＝1，2，3分别进行拼接，获得三种融合的特征映射图。然后，通过一系列的上采样操作将三种特征映射图转换到一样的尺寸，并拼接在一起，这样便能同时获得高层的语义信息和低层的高分辨率的特征，随后接一个卷积核大小为1×1的卷积层从而获得最终的特征映射图F₂，在F₂上进一步对区域建议子网络的候选框进行精调，从而得到更加精准的回归框。

(4)损失函数的优化

为了优化网络，采用两阶段的联合损失作为整个网络的损失函数，使得预测出的候选框跟真实框尽可能接近，从而最终达到生成较为准确的三维包围框的效果。

为了描述方便，定义真实三维包围框G＝(x_g，y_g，z_g，w_g，l_g，h_g，θ_g)与预测框P＝(x_a，y_a，z_a，w_a，l_a，h_a，θ_a)，则它们之间的回归偏差定义为ΔR＝{Δx_g，Δy_g，Δz_g，Δw_g，Δl_g，Δh_g，Δθ_g}，具体为：

Δx_g＝(x_g-x_a)/d_a，Δy_g＝(y_g-y_a)/d_a，Δz_g＝(z_g-z_a)/h_a

Δw_g＝log(w_g/w_a)，Δl_g＝log(l_g/l_a)，Δh_g＝log(h_g/h_a)

Δθ_g＝sin(θ_g-θ_a)

分类损失L_cls采用Focal Loss，其定义为：

L_cls＝-η(1-p)^γlog p

其中p表示预测框的类别概率，η，γ是其超参数，取值分别为0.25，2。

回归损失L_reg，采用SmoothL1函数，其定义如下：

本发明采用两阶段的联合损失作为整个网络的损失函数，其定义如下：

其中，上标1表示Coarse回归网络，上标2表示Fine精调网络，N_pos表示正例的anchor数目，α，β，λ分别表示分类、回归以及Coarse-to-Fine网络的损失函数权衡参数，L_cls表示分类损失，L_reg表示回归损失。

在网络的训练过程中，采用了Adam优化器来优化损失函数，其初始学习率设置为0.0002，在单张Titan Xp显卡上大约训练160个回合，每次批处理的样本为2。

如图5所示是本发明实施例中使用训练好的网络进行三维目标检测的映射到图像上的三维包围盒的可视化结果；图6是本发明实施例中使用训练好的网络进行三维目标检测的直接在点云上检测的三维包围盒的可视化结果。

本发明提出了一种基于三元注意力机制的鲁棒三维目标检测方法。采用体素的表示形式，能够很好地将点云表示成规则的形状，便于后续的检测回归操作。此外，采用三元注意力网络来学习一种更具有区分度的体素特征表示，使之对干扰噪点有很好的鲁棒性。此外，为了获得更好的性能，采用Coarse-to-Fine的回归网络，使得定位精度进一步地提升。基于这些操作，本发明不仅实现了较高的检测精度，而且能够实时地进行目标检测。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。