CN116188933A

CN116188933A - 一种基于群等变的鸟瞰图目标方向预测方法

Info

Publication number: CN116188933A
Application number: CN202310484054.9A
Authority: CN
Inventors: 郭杰龙; 魏宪; 刘宏纬; 俞辉; 邵东恒; 张剑锋; 李�杰; 汤璇
Original assignee: Quanzhou Institute of Equipment Manufacturing; Mindu Innovation Laboratory
Current assignee: Quanzhou Institute of Equipment Manufacturing; Mindu Innovation Laboratory
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-05-30
Anticipated expiration: 2043-05-04
Also published as: CN116188933B

Abstract

一种基于群等变的鸟瞰图目标方向预测方法，根据群等变的思想设计了可嵌入式的群等变网络，嵌入现有的鸟瞰图目标方向预测的管道网络；其中，群等变网络将图像特征迁移到群上，使其具有群的性质，并设计了一个群卷积层直接在群上进行卷积操作，充分提取旋转等变特征；对基于群等变网络的鸟瞰图目标方向预测模型利用数据集进行训练，得到具有旋转等变性的目标方向预测模型，能够在场景旋转的情况下降低平均方向预测误差。

Description

一种基于群等变的鸟瞰图目标方向预测方法

技术领域

本公开涉及目标方向预测领域，特别涉及一种基于群等变的鸟瞰图目标方向预测方法。

背景技术

感知系统作为自动驾驶汽车、室内室外机器人最核心的部分，近年来不断的发展。卓越的环境感知能力是实现自动驾驶任务的保障，感知系统利用传感器获取环境信息。例如，激光雷达采用光学飞行时间法（TOF），通过激光束获取距离等几何点云信息，提供物体的轮廓和位置信息。然而，它仍然存在一些缺点限制了它的应用，如成本高、远处物体点云稀疏、缺乏语义信息等。与LiDAR相比，相机已广泛应用于感知系统，其技术成熟，成本低。它可以提供感知上丰富的语义信息，例如，目标的颜色和纹理，它可以识别道路场景中的交通信号灯和招牌。然而，在恶劣的驾驶条件下，例如下雨、下雪和曝光的天气条件下，仍然存在许多不确定性，感知系统很难从昏暗或曝光的图像中提取足够的上下文信息。因此，能够安全高效地执行环境感知任务的多传感器融合技术受到青睐。

近年来，许多研究工作集中在多传感器融合目标检测网络上。由多个传感器提供的多模态信息可以有效地利用每个传感器的优点来提供安全可靠的感知信息。然而，大多数先前的融合工作选择一个传感器作为主导，而另一个传感器提供补充信息。这样的方式严重丢失了点云的几何特征或者丢弃图像的语义密度。将相机和激光雷达的数据统一为同一种形式进行融合已经成为多传感器融合的重要研究工作。最近，Liu 等人和Liang等人在鸟瞰图上统一了相机和激光雷达。它可以统一表示不同模态的信息，并在一定程度上解决了目标遮挡问题。

在实际道路场景中，车辆不可避免的需要转向，遇到地面起伏会产生颠簸，以上的情况都会造成场景旋转。尽管基于鸟瞰图的融合方法克服了先前的融合方法的缺点，这类方法不会严重损失几何特征或者语义密度，从而在目标检测中获得了更好的性能。但这类方法尚未充分考虑场景旋转问题对方向预测造成的影响。

发明内容

本公开提供一种基于群等变的鸟瞰图目标方向预测方法，其能够降低实际道路场景中由于场景旋转导致的方向预测时的平均方向误差。

本公开提供的基于群等变的鸟瞰图目标方向预测方法，包括以下步骤：

步骤S1：构建鸟瞰图目标方向预测基础模型

，其中包括鸟瞰图生成模块、以及对鸟瞰图中的目标方向进行预测的模块；获取训练所用的原始样本数据集

；

步骤S2：构建群等变网络

，将其嵌入到模型

中的鸟瞰图生成模块之后，得到基于群等变的鸟瞰图方向预测模型

。群等变网络

用于对鸟瞰图生成模块给出的鸟瞰图进行群等变处理，并在群上提取鸟瞰图中的旋转等变特征。

步骤S3：使用数据集

对模型

进行训练，得到具有提取旋转等变特征能力的鸟瞰图方向预测模型

。

进一步的，所述模型

中的鸟瞰图生成模块包括：多个传感器分支的鸟瞰图生成子模块，以及对各传感器生成的鸟瞰图进行融合的子模块。

进一步的，所述模型

中的鸟瞰图生成子模块包括相机分支和激光雷达分支，其中相机分支由主干网络Swin-Transformer、颈部网络FPN和相机鸟瞰图生成网络LSS构建，激光雷达分支由主干网络SECOND、颈部网络FPN和鸟瞰图池化模块构成。

进一步的，所述模型

中对鸟瞰图进行目标方向预测的模块采用TransFusionHead算法模型。

进一步的，所述步骤S2中构建的群等变网络

，由提升层、群卷积层和群池化层构成，该网络的功能为：将鸟瞰图映射到群上，使鸟瞰图具有群的性质；然后在群上进行鸟瞰图卷积操作，提取鸟瞰图中的旋转等变特征；再将卷积结果退化至原来的平面；

其中：

提升层用于将图像特征

从平面

提升至群

，维度从（B,C,H,W）提升为（B,C,R,H,W），其中B、C、R、H和W分别代表单次传递训练样本个数、特征通道数、旋转方向数量、特征高度和特征宽度；

群卷积层满足群

的性质，用于实现不同于传统卷积的群上卷积操作；

群池化层用于使群上图像特征

退化至平面

，维度从（B,C,R,H,W）退化为（B,C*R,H,W），以适应模型

中原有的对鸟瞰图进行目标方向预测的模块。

进一步的，所述群卷积层的层数根据具体的任务设置。

一种应用上述方法得到的群等变鸟瞰图目标方向预测装置，包括：

基于多个传感器分支的鸟瞰图生成以及对各传感器生成的鸟瞰图进行融合的模块；

群等变处理模块，用于对融合后得到的鸟瞰图进行群等变处理，提取鸟瞰图中的旋转等变特征；

目标方向预测模块，用于基于群等变网络模块的输出进行目标方向预测。

进一步的，其中的群等变处理模块采用群等变网络，所述群等变网络由提升层、群卷积层和群池化层构成。其中的群卷积层层数不固定，根据具体的任务设置。

本公开提供的基于群等变的鸟瞰图目标方向预测方法，根据群等变的思想设计了一个可嵌入式的群等变网络，可以自由并合理嵌入现有目标方向预测的管道网络；其中，群等变网络将图像特征迁移到群上，使其具有群的性质，并设计了一个群卷积层直接在群上进行卷积操作，充分提取旋转等变特征；将群等变网络嵌入到鸟瞰图的生成与目标方向预测模块之间，并利用数据集进行训练，得到具有旋转等变性的目标方向预测模型，在场景旋转的情况下可以有效降低平均方向误差。

与现有技术相比，本公开的有益效果是：①通过在现有目标方向预测管道网络中嵌入群等变网络，提取旋转等变特征，实现了在场景旋转的情况下有效降低平均方向误差；②群等变网络中群卷积层的层数可以根据具体的任务设置灵活调整，提取合适深度的旋转等变特征；③群等变网络中加入最优的群池化层，使其可以直接适应现有的目标方向预测算法。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例方式中，相同的参考标号通常代表相同部件。

图1为根据本公开的一种示例性实施例流程图。

图2为示例性的群等变网络结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开提供了一种基于群等变的鸟瞰图目标方向预测方法，附图1中给出了根据本公开的一种示例性实施例流程图，包括以下步骤：

步骤S1：构建鸟瞰图目标方向预测基础模型

，和获取训练所用的原始样本数据

，并将数据

划分成训练集

和测试集

；

其中，鸟瞰图目标方向预测基础模型

，包括鸟瞰图目标生成模块和目标方向预测模块；

其中，鸟瞰图目标生成模块优选采用基于多传感器的鸟瞰图目标生成模型，包括各个传感器分支的鸟瞰图生成部分和融合部分，用于获取多个传感器分支的鸟瞰图，并对各传感器生成的鸟瞰图进行融合。

作为优选，

中的鸟瞰图目标生成模块由相机分支和激光雷达分支构建而成，其中相机分支由主干网络Swin-Transformer、颈部网络FPN和相机鸟瞰图生成网络LSS构建，激光雷达分支由主干网络SECOND、颈部网络FPN和鸟瞰图池化模块构建。然后，各传感器分支统一在鸟瞰图上融合，不严重损失图像的语义密度和点云的几何特征。

目标方向预测模块，主要用于完成目标检测过程中的方向预测。该模块可采用已有的图像目标检测及其方向预测算法模型。作为优选，本实施例中采用了TransFusionHead，该检测算法基于transformer构建，其中包含transformer编码器和transformer解码器，通过transformer编码器利用自注意力机制计算鸟瞰图特征每个位置上的上下文信息，进一步利用transformer解码器生成预测框的位置、尺寸和方向。相比较传统的目标检测预测算法，该基于transformer的目标检测及预测算法能够更好的提高目标检测及方向预测的性能。

根据目标方向预测模块给出的预测位置，可以计算出方向预测的平均方向误差，计算方法如下：

以弧度为单位进行的预测和地面实况之间的最小偏航角差异AOE为：

其中

表示真实框的偏航角，

表示预测框的偏航角，

表示常量

；

其中，N表示类别数量，i表示第i个类别的平均方向误差。

步骤S2：对于模型

，使用训练集

进行训练得到模型

；模型

用于后续与基于群等变的鸟瞰图目标方向预测模型

进行效果对比，以及

的优化。

步骤S3：构建群等变网络

，并将其嵌入到模型

中的鸟瞰图融合模块之后，得到基于群等变的鸟瞰图目标方向预测模型

。所构建的网络

用于提取数据

中的旋转等变特征，使得目标方向预测模块能获取更多旋转等变特征，提高模型

的目标方向预测能力。

作为优选，群等变网络

，由提升层、群卷积层和群池化层构成，其中：

提升层将图像特征

从平面

提升至群

群卷积层满足群

的性质，实现不同于传统卷积的群上卷积操作；群卷积层层数对提取旋转等变特征有影响，因此本实施例中的层数不固定，需根据具体的任务进行设置；

现有目标方向预测算法，即M ₀中原有的目标方向预测模块所用的算法，无法直接在群上进行目标方向预测，为了满足可嵌入式群等变网络的要求，本公开中加入了群池化层，使群上鸟瞰图特征

退化至平面

，维度从（B,C,R,H,W）退化为（B,C*R,H,W）。

步骤S4：对于模型

，使用训练集

进行训练得到模型

，所经过训练的模型

具有提取旋转等变特征的能力。

步骤S5：将经过训练集训练过的模型

和模型

分别进行测试集

的测试，可以得到评估结果，从评估结果可以证明，模型

的平均方向误差高于模型

的平均方向误差，说明模型

可以从测试集

中获取更多的旋转等变特征。

以MPSoCZCU105开发板作为嵌入式平台测试为例，进一步说明主要步骤：

步骤一：构建作为基础的鸟瞰图目标方向预测模型

，并获取训练所用的nuScenes数据集，将数据集根据需要按比例划分为训练集D ₁和测试集

。

步骤二：对于所构建的模型

，配置模型参数和超参数，使用训练集

训练，对模型进行优化和调整，得到具有较好性能的鸟瞰图目标方向预测模型

。

步骤三：构建群等变网络

，用于提取旋转等变特征，提高模型方向预测能力；将其嵌入到模型

。即相机分支和激光雷达分支分别生成鸟瞰图，并将二者鸟瞰图融合，所得到的融合结果需要先通过群等变网络，再将结果输入预测模块，得到最终预测结果。所构建的网络

用于提取数据

中的旋转等变特征，使得预测模块能够获取更多旋转等变特征，提高模型

的目标方向预测能力。

示例性的群等变网络由提升层、群卷积层和群池化层组成，如附图2所示，其中群卷积层层数需要根据具体的任务设置。

步骤四：对于模型

，配置模型参数和超参数，使用训练集

训练，并对模型进行优化和调整，得到模型

。特别地，在训练过程中，对鸟瞰图进行不同程度的旋转等变特征提取，对最终预测结果产生较大影响。针对此类问题，根据任务调整群卷积层，设置群卷积层层数为2、3和4分别进行训练提取不同程度的旋转等变特征。

步骤五：将经过训练集训练过的模型

和模型

分别进行测试集

的测试，可以得到评估结果，并且可以通过所得到的平均方向误差分析设置最佳的群卷积层层数，将最佳的结果与未嵌入群等变网络的鸟瞰图目标方向预测网络

比较。从评估结果可以证明，模型

的平均方向误差高于模型

的平均方向误差，说明模型

可以从测试集

中获取更多的旋转等变特征。

将上述步骤三所构建的群等变网络嵌入步骤一所构建的鸟瞰图方向预测模型，通过步骤四所述选择最佳的群卷积层层数，提取最佳深度的旋转等变特征。

其中，步骤三的群卷积层层数设置是构建群等变网络的关键，层数越多提取的旋转等变特征则越深，但对于具体的任务而言，并不是提取越深层的旋转等变特征会具有更佳的效果。此外，仅设置一层群卷积层，提取浅层的旋转等变特征，对模型的方向预测能力并没有显著的增益。

总之，本公开根据群等变的概念构建群等变网络，将所输入的图像特征迁移到群上，能够使其具有群的性质。在实际道路场景下，不可避免遇到场景旋转从而引入干扰因素，而使图像特征在具有平移等变性的同时具有旋转等变性，可以有效改善此类情况下的方向预测能力差的问题。在示例性实施例的鸟瞰图目标方向预测模型中，群等变网络能够提取鸟瞰图级的旋转等变特征，可以实现平均方向误差的降低。

应用和测试示例：

使用MPSoCZCU105开发板作为嵌入式测试平台。通过以下实验，对本实施例基于群等变的鸟瞰图目标方向预测性能进行测试。

首先获取多个传感器分支的鸟瞰图，并对各传感器生成的鸟瞰图进行融合。此处使用来自https://www.nuscenes.org/的nuScenes自动驾驶公共数据集，数据集的基本情况包括：（a）传感器的配备包括：6个相机、1个激光雷达和5个毫米波雷达，其中6个相机覆盖了360度，且有重叠部分，采集速率是12Hz，激光雷达是32线，采集速率是20Hz，毫米波雷达的采集速率是13Hz；（b）包含波士顿和新加坡的1000个驾驶场景，每个场景是20s，图片的分辨率是1600*900；（c）总共标注23类目标的3D框、类别信息和重要属性，且对目标检测任务支持10类目标的检测。

实验方法如下：

（1）在GPU上使用经nuScenes数据集训练过的群等变鸟瞰图目标方向预测模型进行测试集的测试，得到最终的评估结果。

（2）通过格式转换将通过测试的群等变鸟瞰图目标方向预测模型部署到ARM处理器上。

（3）使用自动驾驶公共数据集nuScenes进行测试，且测试程序基于C++程序语言编写。

实验结果如下：

表1基于群等变的鸟瞰图目标方向预测模型与其他模型的平均方向误差对比

可用的方法	平均方向误差
		BEVDet	0.490
DETR3D	0.437
		BEVFormer	0.372
BEVDepth	0.358
		GEqBev	0.337

表1中BEVDet、DETR3D、BEVFormer和BEVDepth都是基于鸟瞰图的经典方法，GEqBev是本公开所提出方法的简称。实验中通过在鸟瞰图目标方向预测模型中嵌入群等变网络进行训练，使得模型具有旋转等变性，能够提取旋转等变特征。

表1中分别展示了使用不同的目标方向预测方法得到的平均方向误差，其中，平均方向误差越小表明模型在方向预测方面具有更好的能力。实验结果表明，嵌入了群等变网络的鸟瞰图目标方向预测模型的平均方向误差显著降低，表明模型具有更好的目标方向预测能力，在场景旋转的情况下也能得到更好的预测效果。本公开所提出的方法在方向预测能力上优于现有常见方法，同时也证明了该方法在嵌入式计算平台下具有很好的实用性。

上述技术方案只是本发明的示例性实施例，对于本领域内的技术人员而言，在本发明公开的原理和方法的基础上，可以根据具体的任务做出不同程度的改进，而不仅限于本发明上述具体实施例所描述的方法，因此以上描述的方式只是优选的，而并不具有限制性的意义。