CN113160117A

CN113160117A - 一种自动驾驶场景下的三维点云目标检测方法

Info

Publication number: CN113160117A
Application number: CN202110154147.6A
Authority: CN
Inventors: 蒋涛; 钟卓男; 吴思东; 袁建英; 刘甲甲; 贺喜; 段翠萍; 崔亚男; 宁梓豪
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-07-23

Abstract

本发明提供一种自动驾驶场景下的三维点云目标检测方法，方法包括：将接收的点云数据划分到大小相同的三维网格中，构造局部邻域图，经过图神经网络获得高维度的点的特征，拼接多个维度的点的特征，再选择每个网格中最具有代表性的点的特征映射到伪图像上构成特征图；将特征图送入骨干网络后拼接得到多层次的特征图；在多层次特征图上生成多个锚框，将锚框与人工标注的真值框通过在鸟瞰图中的交并比进行匹配，根据预设阈值划分为正、负样本，将其输入卷积神经网络计算损失，对损失函数进行优化，最终得到物体的朝向信息、位置信息和所属类别。该方法能提高中、小型物体的检测准确率。

Description

一种自动驾驶场景下的三维点云目标检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种自动驾驶场景下的三维点云目标检测方法。

背景技术

三维目标检测的主要任务是准确定位场景中所有感兴趣目标所在的位置。具体来说，三维目标检测需要输出物体的类别及其在三维空间中的长宽高等信息。基于点云的三维目标检测方法目前在真实场景中有着非常广泛的应用，特别是在无人驾驶汽车对环境的理解上、增强现实(AR)和虚拟现实(VR)等方面。近年来，随着深度学习在计算机视觉领域的快速发展，基于点云的三维目标检测方法也开始大量使用基于深度学习的方法。目前，基于点云的三维目标检测存在对中、小型目标，例如：骑自行车的人、行人等检测的准确率不高；以及计算资源消耗量大等问题。

发明内容

针对于现有技术的不足，本发明的目的在于提供一种自动驾驶场景下的三维点云目标检测方法，提高了背景技术中对中、小型目标检测的准确率。

为实现上述目的，本发明的技术方案为：一种自动驾驶场景下的三维点云目标检测方法，包括以下步骤：

S1：将待检测的点云数据划分至大小相同的三维网格中，固定每个三维网格中的点数量为第一预设数量，同时根据待检测范围构建伪图像；

S2：使用K最近邻算法对每个三维网格构造局部邻域图，根据所述局部邻域图中点与点的关系获取边特征，并对所述边特征进行对称聚合得到所述局部邻域图的代表点特征；

S3：重复步骤S2得到多个不同维度的代表点特征，然后将不同维度的代表点特征进行拼接后得到的多层次特征映射至所述伪图像上构成特征图；

S4：将所述特征图送入骨干网络后拼接得到多层次的特征图；

S5：在所述多层次的特征图上生成多个锚框，使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框，同时预设第一阈值与第二阈值，将交并比大于预设第一阈值的设为正样本，将交并比小于预设第二阈值的设为负样本，将所述正、负样本一起输入卷积神经网络计算损失，得到物体的朝向信息、位置信息和所属类别。

进一步地，所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括：

当三维网格中的点数量超过第一预设数量时采用随机取样保留第一预设数量的点；

当三维网格中的点数量少于第一预设数量时采用补0保持第一预设数量的点。

进一步地，所述步骤S2具体包括步骤：

S21：通过K最近邻算法对每个三维网格中的点构造局部邻域图，根据所述局部邻域图，以及所述局部邻域图中点与点的关系，构建非线性函数获得每个局部邻域图中的顶点和离这个顶点最近的K个点中的某一个点的第一边特征；

S22：将多个卷积层、批量归一化层和激活函数构成的单元结构与池化层叠加，并输入所述第一边特征，得到高维度第二边特征；

S23：将所述第二边特征进行对称聚合得到所述局部邻域图顶点的K个最近点中具有代表性的一个点的代表点特征。

进一步地，所述步骤S2中的点与点之间的关系包括：点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。

进一步地，所述步骤S4的步骤具体包括：

在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射；其中单元结构为多个卷积层、批量归一化层和激活函数构成；

所述特征图进入所述骨干网络的每个模块前均先经过注意力模型。

进一步地，所述注意力模型包括通道注意力与空间注意力两种注意力机制；其中，所述通道注意力为：

CA(X)＝BN(MLP(AvgPool(X)))

＝BN(W₁(W₀AvgPool(X)+b₀)+b₁)

其中，X表示输入的特征图，BN为批量归一化操作，MLP为多层感知机，AvgPool为平均值池化，W₀、W₁均为权重，b₀、b₁为偏差；

所述空间注意力为：

其中，f为卷积操作，

为卷积的个数是从第1个到第i个的嵌套卷积结构，f₁ ^1×1为第一1x1卷积，

为第二3x3卷积，f_i ^1×1为第i1x1卷积。

进一步地，所述残差为：

F(X)＝H(X)-X

其中，X为输入，H(X)为骨干网络的每个模块多个单元结构。

进一步地，所述步骤S5中的卷积神经网络使用的总损失函数为：

L_cls＝-α_a(1-P^a)^γlogP^a

其中，L_dir为朝向信息损失函数，B_dir为朝向信息超参数，L_cls为所属类别损失函数，B_cls为所属类别超参数，L_loc为位置信息损失函数，B_loc为位置信息超参数，N_pos为正样本锚框的数量，(x,y,z)为物体的中心坐标，w、l、h分别为物体的是宽度、长度、高度，θ为物体的朝向，SmoothL1为SmoothL1损失函数，Δb为真值框和锚框的差值，α_a、γ为超参数，P^a为物体所属类别的概率。

进一步地，还包括步骤：

使用随机梯度下降的方法对卷积神经网络计算的损失进行优化；

卷积神经网络根据该优化结果，自动地调整步骤S1-S4中的各个参数，最终得到物体的朝向信息、位置信息和所属类别。

与现有技术相比，本发明具有如下优点：

本发明提供一种自动驾驶场景下的三维点云目标检测方法，该方法更加关注点云之间的几何信息，考虑每个点与其周围邻域点的局部结构信息，构建出图的结构，更好地结合点云的全局特征和局部特征。同时引入注意力模型和残差模型，使得整个网络能更专注于有效数据的学习，提高中、小型物体的检测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明构造局部邻域图的一实施例结构图；

图2为本发明中由局部邻域图获得每个点局部信息步骤图；

图3为本发明中骨干网络结构图；

图4为本发明普通映射模型与残差映射模型结构对比图；

图5为本发明中注意力模型结构图；

图6为本发明通道注意力结构图；

图7为本发明空间注意力结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

需要注意的是，本发明中的公式或代表式的小标，如无具体特别说明，那么其下标或上标仅仅起到区别作用。

实施例

本发明中提供一种技术方案：一种自动驾驶场景下的三维点云目标检测方法，该方法可分为三个大步骤：特征提取、经骨干网络、三维包围框预测，具体的包括以下步骤：

特征提取：

S1：首先对输入的点云数据进行划分，将点云数据划分到大小相同的三维网格中，将每个三维网格中的点的数量固定为第一预设数量。如果点的数量超过第一预设数量的点数则通过随机采样保留至第一预设数量，如果点的数量少于第一预设数量的点数则通过补0保持第一预设数量。根据需要检测的范围构建一个伪图像。

本步骤中，将输入的点云数据划分到大小相同的三维网格中，其中每个网格的大小长、宽、高为[0.16,0.16,4]米。对于每个三维网格，在网格中取100个点，如果网格中点数超过100，则通过随机采样保留100个点；如果网格中点数少于100，则通过补0来保持100个点。将激光雷达的位置视作xy平面的坐标原点，检测范围为 [0,-40,-3,70.4,40,1]米，构造一个尺寸为440*500的伪图像。

S2：对S1所述的每个三维网格中的每一个点获取点的特征。

本步骤中，对S1所述的每个三维网格中的每一个点，其自身的特征为x₁,x₂,x₃,x₄，分别表示各个点的x、y、z坐标和该点的反射强度，计算每个三维网格中点的重心，然后得出每个点相对于重心的偏移，分别记为x₅,x₆,x₇，同时计算出每个点相对于xy平面中心网格的偏移值，分别记为x₈,x₉,x₁₀，将这些维度拼接在一起作为每个点的特征，每个点的维度为10。

S3：使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。

本步骤中，使用K最近邻算法对S1所述的每个三维网格中的每个点构造局部邻域图。记P＝{p₁,p₂,...,p_m}，其中P表示为网格的集合，m 为非空网格的数量。其中P_i＝{(x₁,...,x₁₀)₁,(x₁,...,x₁₀)_i,...,(x₁,...,x₁₀)₁₀₀}，100 表示的是每个网格中点的数量，将(x₁,...,x₁₀)_i记为

则 P_i＝{X₁,X_i,...,X₁₀₀}。构建出图的结构，将其表示为G＝{V,E}，其中V表示为图的顶点，E表示为点与点之间的边，如参考图1所示。

S4：根据S3构建的局部邻域图，计算每个点与其周围K个最近邻点的所有边的特征。

本步骤中，根据点与点之间的几何关系，可以计算某一个图的顶点和离这个顶点最近的K个点中的某一个点的边特征，记为e_ij＝F(X_i,X_j)，这里F是一个带参数的非线性函数，表示从点j到点 i的信息流动。这里的边特征可以使用以下方法获得，如：点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性等。

在一实施例中使用点与点之间对应特征相减，则边特征为：

e_ij＝F(X_i,X_j)＝F′(X_i,X_j-X_i)

进一步可将边特征表示为：

e′_ijw＝act(α_w×(X_j-X_i)+β_w×X_i)

其中，e′_ijw表示边特征，act表示激活函数，可以使用Relu，Leaky Relu等激活函数，α_w和β_w对应不同的参数，由网络自动学习，循环上述步骤直至求得每个顶点与周围K个最近邻点的所有边特征。

S5：将卷积层、批量归一化层和激活函数视作一个单元结构，应用v个单元结构和相应的池化层操作进行组合叠加，对上述的输出即每个点与周围K个最近邻点的所有边特征进行进一步特征学习，从而获得场景中每个顶点更高维度的所有边的特征，将其记为ψ。

S6：使用一个对称聚合操作，应用到S5的输出ψ上，输出为局部领域图顶点的K个最近点中最具有代表性的一个点的特征。重复 S3，S4，S5，S6，总共重复μ次。

对称聚合操作可以选择求最大值、求最小值、求平均值或者求和等。在一具体实施例中，对称聚合操作采用求最大值的方法，则输出为

这里j:(i,j)∈E表示的是一个局部领域图的结构，i是这个图的顶点，j是顶点i周围的顶点，如参考图2所示。再将X′_i作为新的特征维度更新步骤S2中的特征，重复S3，S4，S5，S6，总共重复μ次。

S7：S3-S6中所述的重复操作完成过后，总共生成μ个不同维度的特征。将μ个特征拼接起来，得到三维网格中点云的多层次特征。再对每个网格使用一个对称聚合操作，得到每个网格的全局特征，则一个网格用一个具有多层次特征的点来表示，再将这个点映射到S1 所建立的伪图像上构成特征图。

经骨干网络：

S8：将S7所述特征图送入骨干网络得到多尺度特征图。

本实施例中，在S7中得到的特征图送入骨干网络(BackBone)，骨干网络的整体结构如参考图3所示，所述特征图进入所述骨干网络的每个模块前均先经过注意力模型，这里的模块是一个含多个单元结构的整体，其中每个单元结构是多个卷积层、批量归一化层和激活函数的组合。

在现有的骨干网络中，随着网络的加深，获取的信息就越多，特征也更加丰富，随着网络的加深会造成梯度消失的现象；越深的网络梯度的更新更加接近于随机扰动，本实施例中，在传统的骨干网络上加入了残差映射，把残差映射放入每个模块的每个单元结构中，让网络能够学习到残差映射，而不是像普通的神经网络一样，参考图4，为普通映射模型结构图与一实施例的残差映射模型结构图对比，图中，左边部分为普通的神经网络映射模型，右边为本实施例中的残差映射模型，具体地，当输入为X时，左边学习到的特征记为H(X)；而残差映射学习到F(X)＝H(X)-X的映射；其中，X为输入，H(X)为模块中多个单元结构，F(X)为残差。

进一步地，本实施例中考虑让神经网络模型对输入数据的不同部位的关注点不同，则其权重不同，故在网络中加入注意力模型，其整体结构如参考图5所示。本实施例中的注意力模型包括通道注意力和空间注意力两种注意力机制。具体地，

通道注意力：该模块主要利用的是特征之间的通道关系，即每个通道都包含特殊的特征关系，其结构图如图6所示，在一实施例中，通道注意力的输出CA(X)为：

CA(X)＝BN(MLP(AvgPool(X)))

＝BN(W₁(W₀AvgPool(X)+b₀)+b₁)

其中，X表示输入的特征图，BN为批量归一化操作，MLP为多层感知机，AvgPool为平均值池化，W₀、W₁均为权重，b₀、b₁为偏差。

空间注意力：主要利用特征间的内部空间信息生成空间注意力，，其结构图参考图7，空间注意力模块关注信息的具体位置，它是对通道注意力的一种补充，在一实施例中，空间注意力的输出SA(X)为：

其中，X表示输入的特征图，BN为批量归一化操作，f为卷积操作，

为第二3x3卷积，f_i ^1×1为第i1x1卷积。

本实施例中的特征图进入骨干网络的每个模块前均先经过注意力模型。

重复S8得到多个不同尺度的特征图。

S9：将S8得到的多个不同尺度的特征图进行拼接得到一个多层次的特征图。

三维包围框预测：

S10：在S9所述多层次的特征图上生成大量的锚框，将所述锚框在一具体实施例中，对于每一类物体有三种朝向的锚框，分别是45°、 90°和135°，然后使用在鸟瞰图中的交并比来匹配锚框和人工标注的真实框，其中判定为正样本有两种方法：1)先验框和真值框的交并比最大；2)先验框和真值框的交并比大于设定的阈值；将阈值设计为[λ_neg,λ_pos]，将交并比大于预设第一阈值λ_pos的设为正样本，将交并比小于预设第二阈值λ_neg的设为负样本，将所述正、负样本一起输入模型计算损失。

优选地，对于大物体来说，将正样本和负样本的匹配阈值分别设置为0.6和0.45，对于中、小型物体来说，将正样本和负样本的匹配阈值分别设置为0.5和0.35；当然，在其他实施例中，也可以设置为其他参数。

S11：所述S10中使用的总损失函数L_total为：

L_cls＝-α_a(1-P^a)^γlogP^a

L_dir为朝向信息损失函数，B_dir为朝向信息超参数，L_cls为所属类别损失函数，B_cls为所属类别超参数，L_loc为位置信息损失函数，B_loc为位置信息超参数，N_pos为正样本锚框的数量，(x,y,z)为物体的中心坐标，w、l、h分别为物体的宽度、长度、高度，θ为物体的朝向，SmoothL1为SmoothL1损失函数，Δb为真值框和锚框的差值，α_a、γ为超参数，P^a为物体所属类别的概率。

具体地，将三维目标框的真值和锚框都定义为(x,y,z,w,l,h,θ)的 7维张量，目标框的真值和锚框的位置回归定义为：

x_t＝(x_g-x_a)/diagonal,y_t＝(y_g-y_a)/diagonal,z_t＝(z_g-z_a)/h_a

其中，x_t、y_t、z_t分别为物体中心坐标x、y、z的人工标注的真值和锚框的偏移量、w_t、l_t、h_t分别为物体长、宽、高的人工标注的真值和锚框的偏移量、θ_t为物体朝向的人工标注的真值和锚框的偏移量、diagonal为物体锚框的对角线长度：带g的下标为人工标注的真值目标框，带a的下标为锚框，然后得到位置信息损失函数为：

接着，定义物体的朝向信息损失函数为L_dir，可使用cross_entropy 函数，使得网络能够学习到物体的朝向信息；

而对于物体所属类别损失函数L_cls，可使用是Focal loss：

L_cls＝-α_a(1-P^a)^γlogP^a

其中P^a是锚框物体类别的概率。超参数α_a＝0.25，γ＝2，通过上述朝向信息损失函数，所属类别损失函数，位置信息损失函数最后得到总损失函数；在一实施例中，可设B_loc＝2，B_cls＝1，B_dir＝0.2。

S12：为了优化S11中总的损失函数L_total，使用随机梯度下降的方法进行优化。

优选地，本实施例使用随机梯度下降的方法优化总损失函数L_total，将初始学习率设置为3*10^-4，每10个epoch学习率衰减0.9倍，总共训练160个epochs，然后卷积神经网络根据该优化结果，反向传播至本发明方法的前面步骤中，自动地调整整个自动驾驶场景下的三维点云目标检测方法过程中的各个参数，最终得到物体的朝向信息、位置信息和所属类别。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种自动驾驶场景下的三维点云目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中所述固定每个三维网格中的点数量为第一预设数量的步骤具体包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括步骤：

4.根据权利要求1所述的方法，其特征在于，所述步骤S2中的点与点之间的关系包括：点与点之间对应特征相减、点与点之间对应特征的绝对值、点与点之间对应特征的平方差、点与点之间的相关性。

5.根据权利要求1所述的方法，其特征在于，所述步骤S4的步骤具体包括：

在所述骨干网络中的每一个模块的每一个单元结构中加入残差映射；

6.根据权利要求5所述的方法，其特征在于，所述注意力模型包括通道注意力与空间注意力两种注意力机制；其中，所述通道注意力为：

CA(X)＝BN(MLP(AvgPool(X)))

＝BN(W₁(W₀AvgPool(X)+b₀)+b₁)

所述空间注意力为：

其中，f为卷积操作，

为第二3x3卷积，f_i ^1×1为第i1x1卷积。

7.根据权利要求5所述的方法，其特征在于，所述残差为：

F(X)＝H(X)-X

其中，X为输入，H(X)为骨干网络的每个模块多个单元结构。

8.根据权利要求1所述的方法，其特征在于，所述步骤S5中的卷积神经网络使用的总损失函数为：

L_cls＝-α_a(1-P^a)^γlogP^a

其中，L_dir为朝向信息损失函数，B_dir为朝向信息超参数，L_cls为所属类别损失函数，B_cls为所属类别超参数，L_loc为位置信息损失函数，B_loc为位置信息超参数，N_pos为正样本锚框的数量，(x,y,z)为物体的中心坐标，w、l、h分别为物体的是宽度、长度、高度，θ为物体的朝向，SmoothL1为SmoothL1损失函数，△b为真值框和锚框的差值，α_a、γ为超参数，P^a为物体所属类别的概率。

9.根据权利要求1-8任一项所述的方法，其特征在于，还包括步骤：