CN117496322A

CN117496322A - 一种基于云边协同的多模态3d目标检测方法和装置

Info

Publication number: CN117496322A
Application number: CN202311623772.6A
Authority: CN
Inventors: 温震宇; 庄佳尧; 顾立辉; 王涛; 洪榛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-02

Abstract

一种云边协同的多模态3D目标检测方法和装置，其方法包括：搭建系统的通讯平台；训练语义分割模型，并将得到语义分割数据与点云数据进行特征融合，融合的数据用于训练点云目标检测模型；将语义分割模型部署在边缘端，处理边缘端的图像数据，通过并行推理的方法，实现模型推理加速，并将推理结果发送云端；通过基于八叉树分割的点云自适应下采样算法，将边缘端的点云数据进行过滤，并将采样后的点云数据发送云端推理；在云端对接收的语义分割数据和点云数据进行特征融合，并设计语义特征预测算法优化图像和点云数据的传输延迟；基于系统的带宽、时延、吞吐率设计优化算法，实现系统在给定延迟预算下的检测精度最大化。

Description

一种基于云边协同的多模态3D目标检测方法和装置

技术领域

本发明涉及雷达点云检测技术和边缘计算领域，涉及一种基于多模态融合的三维目标检测方法和基于云边协同的决策调度方法和装置。

背景技术

自动驾驶车辆自主驾驶在道路上时，需要对周围三维场景进行感知。因此，对特定三维物体的精确识别和定位成为了三维计算机视觉中的重要研究问题。而三维目标检测用于获取物体在三维空间中的位置和类别信息，是自动驾驶感知系统的基础。三维目标检测通过三维传感器接收到的点云数据检测物理对象，估计三维边界盒并指定特定的类别。点云作为一种常用的三维表示方法，能够提供准确的深度信息，因其灵活性和紧密型而越来越引起人们的关注。基于点云的三维目标检测也越来越普遍，点云数据提供了非常精确的范围数据。大多自动驾驶的三维目标检测只依靠激光雷达来提供周围环境信息，尽管现有各模型检测精度较高，但由于固有的安全风险，过度依赖单个传感器是不明智的。此外，点云的远距离分辨率低、纹理信息差也是一个很大的挑战。

自动驾驶汽车通常配备有多个异构传感器，以确保鲁棒、准确的环境感知。目前，基于相机与激光雷达多模态融合的三维目标检测正在得到越来越广泛的研究。二维视觉算法的兴起与视觉感知器的低成本性使得各类视觉AI模型越来越多的应用于各个领域。图像能够提供细粒度的纹理和颜色信息，然而其具有固有的深度模糊性，无法提供可靠的三维几何信息，并且易受到天气与光照条件的影响。点云提供了非常精确的范围视图，可以提供高精度的三维几何形状。这为如何利用两个异构传感器来实现一个高效三维目标检测系统提供了研究价值。Pointpainting通过将二维图像语义分割后的类分数投影到点云的每个点中，从而使得点云数据附带有语义信息，提高了检测精度。

基于多传感融合技术的三维目标检测系统通常具有推理实时性、与较高的吞吐量。这要求设备具有较强的设备算力，较高的网络带宽与较大的资源存储空间，这给如何在边缘设备部署三维目标检测模型带来了挑战。现有的边缘计算能够提供实时的计算能力，并减少了数据间的传输，节省了传输时延，然而边缘设备的单节点算力、存储资源受限，难以实现模型的直接部署与实时检测。云服务器提供了强大的算力资源与存储资源，且具有较高的计算灵活性，可以实现按需部署。然而云服务器同样会面临云端数据过大、安全性低的问题。同时，云计算易受到网络条件的约束，可能造成网络拥塞。

发明内容

为了克服现有3D目标检测模型实际部署方法的不足，本发明提出一种云边协同的多模态3D目标检测方法和装置，以实现在实际场景中3D目标检测系统的吞吐率和精度最大化。

本发明在真实的边缘设备和服务器上，实现点云与图像等多模态数据的获取、传输与推理，进而通过对基于云边协同的算法策略的研究，实现系统在保证检测精度的情况下多模态三维检测的低延时与高吞吐量。从传输层面，通过设计基于历史帧二维语义结果的点云过滤算法，并在三维空间中引入体素划分从而实现动态的ROI点云下采样，在保证数据质量的同时减少传输时延。在多模态数据融合上，考虑到点云数据与图像数据传输的不一致性，需要基于时间戳设计缓存机制减少不同数据融合所需的等待时延。在云边负载优化上，根据网络时延状况，检测场景变化，动态调节采样率、特征融合的相关阈值，设计云边总推理时延和精度的权衡策略，最终实现多目标的优化。

本发明解决其技术问题所采用的技术方案是：

一种云边协同的多模态3D目标检测方法，所述方法包括以下步骤：

1)使用ROS2工具并基于FastDDS数据交互协议和多个边缘设备搭建系统的通讯平台；

2)训练语义分割模型，并将得到语义分割数据与点云数据进行特征融合，融合的数据用于训练点云目标检测模型；

3)将语义分割模型部署在边缘端，处理边缘端的图像数据，通过并行推理的方法，实现模型推理加速，并将推理结果发送云端；

4)通过基于八叉树分割的点云自适应下采样算法，将边缘端的点云数据进行过滤，并将采样后的点云数据发送云端推理；

5)在云端对接收的语义分割数据和点云数据进行特征融合，并设计语义特征预测算法优化图像和点云数据的传输延迟；

6)基于系统的带宽、时延、吞吐率设计优化算法，实现系统在给定延迟预算下的检测精度最大化。

进一步，所述步骤1中包括以下过程：

使用Nvidia Jetson NX作为边缘设备，使用RTX3090作为云端服务器，并在所有设备中安装ROS2环境，通过DDS的订阅-发布机制，实现多设备之间的数据传输与接收。

再进一步，所述步骤2中包括以下过程：

2.1语义分割模型选用PIDNet和DeepLabV3,数据集选用CityScapes和KITTI数据集，在数据预处理阶段通过对图片进行随机裁剪和缩放，保留关键信息并提高模型的泛化能力；在训练过程中，采用Ploy动态学习率策略；为了更好地适应任务的需求，损失函数使用逐像素的交叉熵损失，并采用合适的训练策略得到最终的预训练模型。

2.2点云目标检测模型，选用KITTI和Waymo数据集，并以IA-SSD为模型的基本框架进行训练，采用Adam优化策略，通过80个Epoch的训练可以提高模型性能，并选出其中在测试集中表现最佳的模型。

2.3训练基于特征融合的点云目标检测模型，先获得点云数据集和语义分割的结果，再将所有点云数据与语义分割结果进行特征维度的融合，将融合后的数据输入点云目标检测模型中进行再训练。

所述步骤3中包括以下过程：

3.1在CityScapes数据集上训练完毕后，使用Torch作为推理引擎，并通过TensorRT进行加速。

3.2为进一步发挥边缘设备的计算能力，使用TensorRT提供的接口，创建多个CONTEXT进行并行推理；通过负载均衡的手段，来同时处理不同的输入数据。

所述步骤4中包括以下过程：

4.1首先对点云在三维空间上进行八叉树分区，通过对每个八叉树中心节点进行比较，将点云中的所有点依次递归到节点的八个子空间中，并进行循环迭代来细化子空间的大小；在实际分块中，设置迭代深度来控制子节点空间的大小，迭代深度越深子空间越小，更利于ROI区域的选择与优化，同时也会增加搜索时延，迭代深度根据实际的系统精度、传输要求进行选取。

4.2以历史目标物的概率分布作为采样率的反馈。历史目标物的概率分布提取，基于目标物的尺寸将其划分为大、中、小三种类型，并获取目标向量信息；对历史目标概率分布的统计有助于得到目标物在三维空间中的ROI区域，使得点云下采样中减少背景点的干扰，更多的保留目标点。

4.3分区采样策略，对于每个八叉树分区，位于ROI区域的点云需要设置更高的采样率，而背景点分配更低的采样率。因此，通过各ROI分块与目标物的欧氏距离来计算相关采样率，对点云的不同分区给定不同的采样率。

所述步骤5中包括以下过程：

5.1语义分割和点云数据融合，将激光雷达点云中的每一个点(x,y,z,r),基于点云相机坐标标定算法映射到图像中；并将语义分割相关像素的分割分数concat到点云数据上，使点云数据带有图像语义特征，从而提升三维目标检测精度。

5.2由于语义分割数据经过边缘端的推理会造成数据融合不同步；在边缘端对每个发送的数据加上时间戳，对于时延相差较大的数据，在服务端部署语义分割预测模型，用来减少多模态数据的等待时延，提升系统的吞吐率。

5.3语义分割预测模型包含三部分：光流预测网络、特征流聚合LSTM和端到端扭曲层；光流预测通过当前帧T与前一帧图像T-1进行光流估计，通过前n帧图像得到n-1帧光流估计特征图；将光流估计特征图传入FlowLSTM网络中生成未来帧的光流预测特征；最终通过扭曲层将当前帧的语义分割结果与未来帧的光流预测特征进行聚合，得到未来帧的语义预测结果。

5.4对于时延相差较小的多模态数据，用上一帧的语义结果来匹配下一帧的点云数据，根据系统状态可以选择合适的融合策略。

所述步骤6中包括以下过程：

6.1由于目标检测的精度与采样策略和融合策略密切相关，因此根据实验构建精度估计模型，通过二次项拟合下采样率和融合策略与推理精度的关系。

6.2监测系统运行过程中的主要时延，对各个时延调整基于下采样的策略以及融合策略，推理精度和原始点云的个数呈现正相关，将推理精度和点云个数通过关系系数及进行映射；并通过最优化与贪心算法实现给定时延下精度的最大化。

本发明的第二个方面涉及基于云边协同的多模态3D目标检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现本发明的基于云边协同的多模态3D目标检测方法。

本发明的第三个方面涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的基于云边协同的多模态3D目标检测方法。

本发明的优点和积极效果：

本发明针对原始点云和图像数据产生较大传输开销的问题，提出了基于八叉树的点云自适应下采样策略，克服了传统点云采样方法没有根据检测目标任务做出针对性的采样，导致采样后的检测精度较低的问题。针对传输过程中的多模态数据融合存在不同步的问题，设计了基于时间戳的融合策略以及基于LSTM与光流估计的语义特征预测模型。针对整体系统的延迟与精度优化，设计了贪心算法实现了云边负载均衡，并在给定延时下最大化检测精度。

附图说明

图1为本发明基于云边协同的多模态3D目标检测方法的整体流程图。

图2为本发明基于卷积长短时记忆网络的语义分割预测模型实现步骤示意图。

图3是本发明方法的主流程图。

具体实施方式

为了使本发明的技术方案、设计思路能更加清晰，下面结合附图对本发明做进一步详尽的描述。

实施例1

一种基于云边协同的多模态3D目标检测方法，包括点云数据采集设备，由JetsonXavier NX作为边缘设备，服务器为搭载RTX3090显卡的Linux操作系统实验平台；点云目标检测系统用于对获取的雷达数据进行实时目标识别与3D目标框的检测与标定。

参照图1，一种基于云边协同的多模态3D目标检测方法，包括以下步骤：

步骤1)中包括以下过程：使用Nvidia Jetson NX作为边缘设备，使用RTX3090作为云端服务器，并在所有设备中安装ROS2环境，通过DDS的订阅-发布机制，实现多设备之间的数据传输与接收。

步骤2)中包括以下过程：

2.1语义分割模型选用PIDNet和DeepLabV3,数据集选用CityScapes和KITTI数据集，在数据预处理阶段通过对图片进行随机裁剪和缩放，保留关键信息并提高模型的泛化能力；在训练过程中，采用Ploy动态学习率策略，为了更好地适应任务的需求，损失函数使用逐像素的交叉熵损失，并采用合适的训练策略得到最终的预训练模型；

2.2点云目标检测模型，选用KITTI和Waymo数据集，并以IA-SSD为模型的基本框架进行训练，采用Adam优化策略，通过80个Epoch的训练可以提高模型性能，并选出其中在测试集中表现最佳的模型；

步骤3)中包括以下过程：

3.1在CityScapes数据集上训练完毕后，使用Torch作为推理引擎，并通过TensorRT进行加速；

步骤4)中包括以下过程：

4.1首先对点云在三维空间上进行八叉树分区，通过对每个八叉树中心节点进行比较，将点云中的所有点依次递归到节点的八个子空间中，并进行循环迭代来细化子空间的大小；对于任意点P_(*,y,z)及其所在空间的中心坐标OFFSET_(x,y,z),该点在子空间下的分类可表示为

P_L＝(P_X>OFFSET_X)+(P_y>OFFSET_y)*2+(P_z>OFFSET_z)*4 (1)

在实际分块中，设置迭代深度来控制子节点空间的大小，迭代深度越深子空间越小，更利于ROI区域的选择与优化，同时也会增加搜索时延，迭代深度根据实际的系统精度、传输要求进行选取。

4.2历史目标物的概率分布提取，基于目标物的尺寸可以将其划分为大、中、小三种类型，并获取目标向量信息O_v

O_V＝<δS0,δS1,…δM0,δM1,…δL0,δL1> (2)

目标物的概率分布依据时间戳进行排列，设定30帧的时间窗口F_v，时间窗口依据先入先出的原则,对于短时间内的目标分布应给予更高的优先级；

F_v＝∑_i＝30O_vi (3)

对历史目标概率分布的统计有助于获取目标物在三维空间中的ROI区域，使得点云下采样中减少背景点的干扰，更多的保留目标点。

4.3分区采样策略，对于每个八叉树分区，位于ROI区域的点云需要设置更高的采样率，而背景点分配更低的采样率。因此，通过各ROI分块与目标物的欧氏距离来计算相关采样率，对点云的不同分区给定不同的采样率。首先基于子空间的中心点C计算每个子空间与其历史帧中目标物的欧氏距离dist，

采样基本系数f_i为欧式距离的倒数，根据每个历史帧中n个目标物的采样系数γ计算如下

历史目标物概率分布时间窗口具有遗忘机制，对于最近的目标物采样系数应具有更高的权重，因此各历史帧的采样系数γ_j的相关权重可表示为

最终的采样率表示为

步骤5)中包括以下过程：

5.1语义分割和点云数据融合，将激光雷达点云中的每一个点(x,y,z,r),基于点云相机坐标标定算法映射到图像中；并将语义分割相关像素的分割分数concat到点云数据上，使点云数据带有图像语义特征，从而提升三维目标检测精度；

5.2由于语义分割数据经过边缘端的推理会造成数据融合不同步；在边缘端对每个发送的数据加上时间戳，对于时延相差较大的数据，在服务端部署语义分割预测模型，用来减少多模态数据的等待时延，提升系统的吞吐率；

5.3语义分割预测模型具体实现如图2所示，该模型包含三部分：光流预测网络、特征流聚合LSTM和端到端扭曲层；光流预测通过当前帧T与前一帧图像T-1进行光流估计，通过前n帧图像得到n-1帧光流估计特征图；将光流估计特征图传入FlowLSTM网络中生成未来帧的光流预测特征；最终通过扭曲层将当前帧的语义分割结果与未来帧的光流预测特征进行聚合，得到未来帧的语义预测结果；

步骤6)中包括以下过程：

6.1由于目标检测的精度与采样策略和融合策略密切相关，因此根据实验构建精度估计模型，通过二次项拟合下采样率和融合策略与推理精度的关系，得到下式

ACC＝a*γ²+b*γ+c*max(0,t-δt) (9)

式中γ表示采样率，t为融合时延，δ为相应的融合策略；

6.2监测系统运行过程中的主要时延：点云下采样时延、点云传输时延、特征融合时延、模型推理延时，并表示为

T＝T_sample+T_translate+T_fusion+T_interface (10)

根据各个时延的状态来调整下采样策略以及融合策略，由于推理精度和原始点云的个数N呈现正相关，将推理精度和点云个数通过关系系数及进行映射：

其中，sample为点云下采样时延与点云数量的关联函数，γ为实际采样率，τ为带宽系数，fusion为特征融合时延与下采样后输入点云数量的关联函数，offset为偏置值，最终通过最优化算法实现给定时延下精度最大值为：

实施例2

本实施例涉及基于云边协同的多模态3D目标检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现实施例1的基于云边协同的多模态3D目标检测方法。

实施例3

本实施例涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现实施例1的基于云边协同的多模态3D目标检测方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员依然可以根据前述实施例或附图进行其他不同形式的修改或变动。这里无法对所有实施方式或技术方案进行穷举，所有本发明原则内的修改、更换等，均应包含在本发明要求的保护范围内。

Claims

1.一种基于云边协同的多模态3D目标检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于云边协同的多模态3D目标检测系统设计，其特征在于，步骤1的通讯平台的搭建过程如下：

3.如权利要求1所述的基于云边协同的多模态3D目标检测系统，其特征在于，步骤2中，多模态模型训练的过程如下：

2.2点云目标检测模型选用KITTI和Waymo数据集，并以IA-SSD为模型的基本框架进行训练，采用Adam优化策略，通过80个Epoch的训练提高模型性能，并选出其中在测试集中表现最佳的模型；

4.如权利要求1所述的基于云边协同的多模态3D目标检测系统，其特征在于，步骤3中，边缘端的模型推理加速过程如下：

5.如权利要求1所述的基于云边协同的多模态3D目标检测系统，其特征在于，步骤4中，点云的下采样传输优化过程如下：

4.1首先对点云在三维空间上进行八叉树分区，通过对每个八叉树中心节点进行比较，将点云中的所有点依次递归到节点的八个子空间中，并进行循环迭代来细化子空间的大小；对于任意点P_(x，y，z)及其所在空间的中心坐标OFFSET_(x，y，z)，该点在子空间下的分类可表示为：

P_L＝(P_X＞OFFSET_X)+(P_y＞OFFSET_y)*2+(P_z＞OFFSET_z)*4 (1)在实际分块中，设置迭代深度来控制子节点空间的大小，迭代深度越深子空间越小，更利于ROI区域的选择与优化，同时也会增加搜索时延，根据实际的系统精度、传输要求进行选取；

O_V＝<δS0，δS1，...δM0，δM1，...δL0，δL1＞ (2)

目标物的概率分布依据时间戳进行排列，设定30帧的时间窗口F_v，时间窗口依据先入先出的原则，对于短时间内的目标分布应给予更高的优先级；

F_v＝∑_i＝30O_vi (3)

对历史目标概率分布的统计有助于获取点云目标物在三维空间中的ROI区域，用于在点云下采样中减少背景点的干扰，更多的保留目标点；

4.3设置分区采样策略，对于每个八叉树分区，位于ROI区域的点云需要设置更高的采样率，而背景点需要更低的采样率，因此，通过其与目标物的欧氏距离来计算相关采样率，对点云的不同分区给定不同的采样率；首先基于子空间的中心点C计算每个子空间与其历史帧中目标物的欧氏距离dist，

采样基本系数f_i为欧式距离的倒数，根据每个历史帧中n个目标物的采样系数γ计算如下：

历史目标物概率分布时间窗口具有遗忘机制，对于最近的目标物采样系数应具有更高的权重，因此各历史帧的采样系数γ_j的相关权重可表示为：

最终的采样率表示为：

6.如权利要求1所述的基于云边协同的多模态3D目标检测系统，其特征在于，步骤5中，点云与语义分割数据融合优化过程如下：

5.1融合语义分割和点云数据，将激光雷达点云中的每一个点(x，y，z，r)，基于点云相机坐标标定算法映射到图像中；并将语义分割相关像素的分割分数concat到点云数据上，使点云数据带有图像语义特征，从而提升三维目标检测精度；

5.2由于语义分割数据经过边缘端的推理会造成数据融合不同步，在边缘端对每个发送的数据加上时间戳，对于时延相差较大的数据，在服务端部署语义分割预测模型，用来减少多模态数据的等待时延，提升系统的吞吐率；

5.3语义分割预测模型包含三部分：光流预测网络、特征流聚合LSTM和端到端扭曲层；光流预测通过当前帧T与前一帧图像T-1进行光流估计，通过前n帧图像得到n-1帧光流估计特征图；将光流估计特征图传入FlowLSTM网络中生成未来帧的光流预测特征；最终通过扭曲层将当前帧的语义分割结果与未来帧的光流预测特征进行聚合，得到未来帧的语义预测结果；

7.如权利要求1所述的基于云边协同的多模态3D目标检测方法，其特征在于，步骤6中，系统的负载优化过程如下：

6.1由于目标检测的精度与采样策略和融合策略密切相关，因此根据实验构建精度估计模型，通过二次项拟合下采样率和融合策略与推理精度的关系，得到下式：

ACC＝a*γ²+b*γ+c*max(0，t-δt) (9)

式中γ表示采样率，t为融合时延，δ为相应的融合策略；

6.2监测系统运行过程中的下列时延：点云下采样时延、点云传输时延、特征融合时延、模型推理延时，并表示为：

T＝T_sample+T_translate+T_fusion+T_interface (10)

8.基于云边协同的多模态3D目标检测装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-7中任一项所述的基于云边协同的多模态3D目标检测方法。

9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-7中任一项所述的基于云边协同的多模态3D目标检测方法。