CN116958763A

CN116958763A - 特征-结果级融合的车路协同感知方法、介质及电子设备

Info

Publication number: CN116958763A
Application number: CN202310490780.1A
Authority: CN
Inventors: 王越; 祝贺; 熊蓉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-10-27
Anticipated expiration: 2043-05-04
Also published as: CN116958763B

Abstract

本发明公开了一种特征‑结果级融合的车路协同感知方法、介质及设备。本发明针对车端与路端的协同感知所存在的各种难题与挑战，结合实际应用场景提出了一种特征‑结果级融合的车路协同感知方法，即路端提供感知的结果级数据，由于结果级数据量较小，可以满足实际通信带宽的要求。但路侧感知数据具有异步异构性质，存在一定的误差与时延，需要对路侧数据进行时空对齐与补偿。同时，车端融合图像和点云的多模态数据得到特征级数据，再使用基于Transformer设计的特征融合模型进行特征‑结果级融合，实现车路协同感知，在扩大感知范围的基础上，进一步提升感知的精度、稳定性与鲁棒性，解决当前单车智能所面临的难题与挑战。

Description

特征-结果级融合的车路协同感知方法、介质及电子设备

技术领域

本发明属于自动驾驶感知领域，具体涉及一种特征-结果级融合的车路协同感知方法、介质及设备。

背景技术

自动驾驶是一种能够在道路上自主安全地操作机动车辆实现无人驾驶的技术，目前主要有单车智能和车路协同两种技术方案。单车智能是仅依靠自车的传感器、计算单元等设备完成感知、决策、规划、控制，从而实现车辆的自动驾驶。单车智能基于数据驱动的深度学习技术已在自动驾驶感知领域得到了广泛的应用，在日常的驾驶环境中，已经能够实现单车的自动驾驶，但此方法往往存在看不全、看不远的问题，对于鬼探头(即在有盲区的区域突然出现一个未知的障碍物)、光线变化或天气原因导致的传感器失效、遮挡、拐弯视野盲区等长尾场景导致的感知失效问题无能为力，仍然需要持续提升。车路协同是指在车联网系统中，车辆、路端设施以及其他智能设备之间可以进行信息交流与数据共享，各智能体之间可以进行实时的通信，为车辆提供更加丰富的环境信息，从而实现更加安全、高效、智能的自动驾驶。在一些特殊场景中，路端可以发挥其稳定性和全局性等优势，为单车智能自动驾驶提供支持，有助于解决当前单车智能下的主要挑战，因此车路协同也被广泛称为自动驾驶的终极形态和未来方向。

车路协同感知系统一般包含车端系统、路端系统两个部分，彼此之间可以相互通信，如图1所示。利用路端智能感知设备实现多方位、长距离的感知获取并通过V2I(Vehicle-to-Infrastructure)通信传递给车端；同时路端感知设备与云端平台通信，可以在云端进行数据处理，在降低算力投入的同时，实现全路段长时间的连续检测，对各类交通事件进行监控。车端接收路端的感知数据进行融合处理，得到最终的车路协同感知结果。

车路协同感知系统在基础设施与硬件配置方面，包括不同网联等级和自动化程度的车辆、路端智能基础设施及环境。其中，车端的硬件配置包括但不限于：激光雷达、毫米波雷达和摄像头等智能感知设备、GPS、IMU和轮式里程计等定位设备、边缘计算设备和通信设备等。路端的基础设施与环境配置包括但不限于：道路工程及供能、供电和照明等附属设施、激光雷达、毫米波雷达和摄像头等智能感知设备、通信设备、边缘计算设备以及基于云计算搭建的大数据与人工智能云端平台等。

车路协同感知系统在算法的设计方面，根据融合方法的不同可以分为数据级融合(又称前融合)、特征级融合(又称中融合)和结果级融合(又称后融合)。数据级融合是将来自路端的原始感知数据经坐标系变换投影到车端，与车端的感知数据进行融合后再经过感知模块得到输出，类似的工作例如Cooper^[1]，它是一种基于激光雷达点云的数据级融合协同感知算法，它将多个智能体获取的点云数据根据彼此之间的相对位置关系进行前融合后，从而得到一个相较于单车感知范围更大的点云数据，再利用基于点云的3D目标检测算法得到感知的结果。虽然数据级融合感知方法的精度较高，但是由于原始数据的规模较大，存在占用较大通信带宽的问题。特征级融合的一般做法是车端和路端分别基于传感器数据通过主干网络得到特征图，将路端的特征图经投影至车端坐标系下后进行融合，再经过检测网络得到感知输出，类似的工作例如V2X-ViT^[2]，它是一种基于激光雷达点云的特征级车路协同感知算法，并考虑了数据的异步和异构性，但在实际应用中特征级融合也难以满足通信带宽的要求。结果级融合是将路端和车端感知模块的输出进行融合，根据每个检测框的得分进行排序与筛选得到最终的结果，现有的方法通常使用非极大值抑制算法(NMS)，如OPV2V^[3]，此方法虽然需要的通信带宽很小，可以满足实际应用的要求，但这种融合方法的感知精度较低。

参考文献：

[1]Chen,Qi,et al."Cooper:Cooperative perception for connectedautonomous vehicles based on 3d point clouds."2019IEEE 39th InternationalConference on Distributed Computing Systems(ICDCS).IEEE,2019.

[2]Xu,Runsheng,et al."V2X-ViT:Vehicle-to-everything cooperativeperception with vision transformer."Computer Vision–ECCV 2022:17th EuropeanConference,Tel Aviv,Israel,October 23–27,2022,Proceedings,Part XXXIX.Cham:Springer Nature Switzerland,2022.

[3]Xu,Runsheng,et al."Opv2v:An open benchmark dataset and fusionpipeline for perception with vehicle-to-vehicle communication."2022International Conference on Robotics and Automation(ICRA).IEEE,2022.

发明内容

本发明的目的在于针对车路协同融合感知的难题与挑战，提出了一种在时空异步与通信带宽受限的情况下特征-结果级融合的车路协同感知方法。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种特征-结果级融合的车路协同感知方法，其包括：

S1、获取自动驾驶车辆经过路侧感知设备时通过通信模块发送的路端感知数据，同时记录车辆自身通过摄像头和激光雷达采集的车端感知数据；

S2、将路端感知数据变换至与车端感知数据的坐标系下，再基于自动驾驶车辆的自身感知范围对变换后的路端感知数据进行目标筛选，剔除位于自身感知范围之外的数据；将筛选后的路端感知数据与所述车端感知数据进行时间对齐与运动补偿，从而匹配得到一帧相同时间和坐标系下的路端感知数据与车端感知数据；

S3、将S2中匹配得到的车端感知数据分别通过图像和点云对应的骨干网络提取图像特征和点云特征，并将图像特征和点云特征投影得到鸟瞰图特征并作为输入特征融合模型的特征级数据，将S2中匹配得到的路端感知数据作为输入特征融合模型的结果级数据，由特征融合模型对特征级数据和结果级数据进行融合并将融合特征输入前向网络中，预测得到目标的类别和3D检测框信息。

作为上述第一方面的优选，所述特征融合模型由编码器模块和解码器模块组成，模型输入为所述特征级数据和结果级数据；

所述特征级数据作为所述编码器模块的模块输入，依次经过多个由第一多头注意力层、第一残差标准化层、第一前向网络层和第二残差标准化层组成的编码器后，得到编码特征；

所述结果级数据经过多层感知机升维后得到第一查询特征，同时随机生成一组第二查询特征，将所述编码特征、第一查询特征和第二查询特征一并输入解码器模块中，经过多个解码器后输出融合特征；每个解码器中，第一查询特征先通过第二多头注意力层和第三残差标准化层变换后与第二查询特征进行拼接形成第三查询特征，且第三查询特征的特征维度与车端能够感知的目标数量上限值相同；第三查询特征再经过第三多头注意力层和第四残差标准化层后得到第四查询特征，第四查询特征再通过第四多头注意力层、第五残差标准化层、第二前向网络层和第六残差标准化层后，得到当前解码器的输出；上一个解码器的输出分别叠加到输入下一个解码器的第一查询特征和第二查询特征中，最后一个解码器的输出直接作为所述融合特征输入前向网络中用于目标检测；

其中第一多头注意力层的值为所述特征级数据，键和查询均为嵌入空间位置编码的所述特征级数据；第二多头注意力层的值、键和查询均为所述第一查询特征；第三多头注意力层的值为所述第三查询特征，键和查询均为嵌入第二查询特征的第三查询特征；第四多头注意力层的值为所述编码特征，键为嵌入空间位置编码的所述编码特征，查询为嵌入所述第二查询特征的第四查询特征。

作为上述第一方面的优选，所述路端感知数据为通过雷视融合感知分析得到的结果级数据，包括目标的位置、尺寸、朝向角和速度信息；所述车端感知数据包括摄像头采集的图像和激光雷达采集的点云数据。

作为上述第一方面的优选，所述路侧感知设备由间隔安装于道路侧部的智能杆以及云端平台组成；每根智能杆上安装有枪式彩色定焦摄像机、卡口摄像机、变速球形变焦摄像机、鱼眼摄像机、毫米波雷达、边缘计算设备、路端通信单元和GPS设备；枪式彩色定焦摄像机负责远距离的视频检测；卡口摄像机负责近距离的目标抓拍和视频检测；变速球形变焦摄像机可以通过旋转角度与变焦放大进行目标的抓拍；鱼眼摄像机负责智能杆下盲区的视频监测；毫米波雷达通过探测回波信号来感知周围环境中的物体，获取其距离、速度和方向等信息；边缘计算设备支持雷视融合感知分析，为AI算法提供算力支撑；路端通信单元负责与车端、云端通信单元进行通信，上传路端感知数据；GPS设备用于确定路端设备的绝对位置；云端平台用于接收所有智能杆的数据，基于大数据分析实现全路段的实时监控。

作为上述第一方面的优选，所述通信模块采用V2I实时通信模块，其基于V2I通信协议搭建数据传输通道，实现路端通信单元与车端通信单元的实时通信。

作为上述第一方面的优选，所述自动驾驶车辆中，车端定位模块采用轮式里程计、IMU和GPS为传感器，并基于扩展卡尔曼滤波进行融合定位。

作为上述第一方面的优选，所述自动驾驶车辆中，车端融合感知模块包括激光雷达、分布于车辆四周的四个彩色广角相机、边缘计算设备和车端通信单元；各传感器通过GPS授时同步，并完成相应的内参外参标定；车端通信单元用于与路端通信单元进行通信，获取路端感知数据；四个广角相机实现视觉环视覆盖，激光雷达获取车端周围点云数据，两者实现车端鸟瞰图视角下的多模态融合感知，同时接收自车周围的路端感知数据进行融合，实现车路协同感知；边缘计算设备用于为自动驾驶所需的计算提供算力支撑。

作为上述第一方面的优选，所述骨干网络、特征融合模型和前向网络构成的车路协同感知模型框架，预先在标注数据集上进行训练，且每个样本的标注包括目标的类别、尺寸、偏航角、遮挡和截断信息。

作为上述第一方面的优选，所述图像对应的骨干网络优选为BEVFormer网络，所述点云对应的骨干网络优选为VoxelNet或PointPillars。

第二方面，本发明提供了一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面任一方案所述的特征-结果级融合的车路协同感知方法。

第三方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面任一方案所述的特征-结果级融合的车路协同感知方法。

本发明相对于现有技术而言，具有以下有益效果：

与车路协同感知的其他融合策略相比，本发明的数据传输消耗与结果级融合的车路协同感知方法相同，远小于数据级融合和特征级融合的两种车路协同感知方法。而且本发明的方法在感知精度、稳定性与鲁棒性上虽然低于数据级融合的车路协同感知方法，但高于特征级融合和结果级融合的两种车路协同感知方法。

附图说明

图1为车路协同感知系统示意图。

图2为车路协同感知模型框架示意图。

图3为V2IFormer模型示意图。

图4为车路协同场景设置示意图。

图5为坐标系及其转换关系示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在车路协同感知的实际应用过程中，车端感知模块在保证实时性的同时，需要融合图像和点云的多模态数据；路侧感知数据一方面由于存在计算和通信时延，需要与车端数据进行时空对齐；另一方面，路侧雷视融合感知也会存在一定检测误差，需要车路协同算法进行融合修正；同时由于通信带宽的约束，路端与车端通信的数据规模较小，所以面临的一个难题与挑战是如何在时空异步、通信受限下将具有异步异构性质的多模态多元数据进行融合，实现车路协同感知。

本发明针对车端与路端的协同感知所存在的各种难题与挑战，结合实际应用场景提出了一种特征-结果级融合的车路协同感知方法，即路端提供感知的结果级数据，由于结果级数据量较小，可以满足实际通信带宽的要求。但路侧感知数据具有异步异构性质，存在一定的误差与时延，需要对路侧数据进行时空对齐与补偿。同时，车端融合图像和点云的多模态数据得到特征级数据，再使用基于Transformer设计的融合算法进行特征-结果级融合，实现车路协同感知，在扩大感知范围的基础上，进一步提升感知的精度、稳定性与鲁棒性，解决当前单车智能所面临的难题与挑战。

在本发明的一个较佳实施例中，提供了一种特征-结果级融合的车路协同感知方法，其包括以下步骤：

S1、获取自动驾驶车辆经过路侧感知设备时通过通信模块发送的路端感知数据，同时记录车辆自身通过摄像头和激光雷达采集的车端感知数据。

S2、将路端感知数据变换至与车端感知数据的坐标系下，再基于自动驾驶车辆的自身感知范围对变换后的路端感知数据进行目标筛选，剔除位于自身感知范围之外的数据；将筛选后的路端感知数据与所述车端感知数据进行时间对齐与运动补偿，从而匹配得到一帧相同时间和坐标系下的路端感知数据与车端感知数据。

S3、将S2中匹配得到的车端感知数据分别通过图像和点云对应的骨干网络提取图像特征和点云特征，并将图像特征和点云特征投影得到鸟瞰图特征(BEV Feature)并作为输入特征融合模型的特征级数据，将S2中匹配得到的路端感知数据作为输入特征融合模型的结果级数据，由特征融合模型对特征级数据和结果级数据进行融合并将融合特征输入前向网络中，预测得到目标的类别和3D检测框信息。

在本发明的实施例中，路端感知数据为通过雷视融合感知分析得到的结果级数据，包括目标的位置、尺寸、朝向角和速度信息，而车端感知数据包括摄像头采集的图像和激光雷达采集的点云数据。

在本发明的实施例中，如图2所示，展示车路协同感知模型框架，其包括两个骨干网络、特征融合模型和前向网络，路侧通过雷视融合感知分析，将感知的结果级数据(包含目标的类别、位置、速度、朝向角等信息)通过V2I实时通信模块传递给车端，车端获取定位模块的输出，结合传感器之间的内外参数对路端数据作坐标系的变换，自车感知范围内目标筛选，以及针对传输与计算时延进行时间对齐与运动补偿的预处理；与此同时，车端的摄像头(Camera)和激光雷达(LiDAR)采集数据，分别经过图像的主干网络和点云的主干网络(Camera Backbone&Lidar Backbone)提取得到图像和点云特征(Image Feature&PointCloud Feature)，将其投影得到BEV特征(BEV Feature)与预处理后的路侧结果级数据(Infrastructure perception)经V2IFormer网络进行融合，最后再经过前向网络(FFN)预测得到目标的类别和3D检测框信息(包括检测框中心位置x，y，z，检测框尺寸l，w，h，朝向角的正弦值，朝向角的余弦值，x方向速度，y方向速度)，即最终的目标检测结果。

上述特征融合模型是基于Transformer设计的，该模型部分是整个框架中实现特征-结果级融合和车路协同感知的关键，为了便于描述下面将其称为V2Iformer。下面对V2Iformer模型的具体结构和数据处理流程进行详细描述。

如图3所示，V2Iformer模型由编码器模块和解码器模块组成，模型输入为特征级数据(即BEV特征)和结果级数据(即Infrastructure Perception)。

在编码器模块中，以上述特征级数据作为编码器模块的模块输入，编码器模块中包含N个编码器，每个编码器由第一多头注意力层、第一残差标准化层、第一前向网络层和第二残差标准化层依次级联而成，输入的特征级数据依次经过多个编码器后，得到编码特征。

在解码器模块之前，上述结果级数据经过多层感知机(MLP)升维后得到第一查询特征，同时随机生成一组第二查询特征，将上述编码特征、第一查询特征和第二查询特征一并输入解码器模块中，经过多个解码器后输出融合特征。

解码器模块中包含M个解码器，且每个解码器中的前向数据处理过程如下：第一查询特征先通过第二多头注意力层(多头注意力层即Multi-Head Self-Attention层)和第三残差标准化层(残差标准化层即Add&Norm层)变换后与第二查询特征进行拼接形成第三查询特征，且第三查询特征的特征维度与车端能够感知的目标数量上限值相同。第三查询特征再经过第三多头注意力层和第四残差标准化层后得到第四查询特征，第四查询特征再通过第四多头注意力层、第五残差标准化层、第二前向网络层和第六残差标准化层后，得到当前解码器的输出。上一个解码器的输出分别叠加到输入下一个解码器的第一查询特征和第二查询特征中，即将原始的第一查询特征和第二查询特征分别与上一个解码器的输出相加后，以相加结果作为输入下一个解码器的第一查询特征和第二查询特征。最后一个解码器的输出直接作为前述的融合特征输入前向网络中用于目标检测，无需叠加两个查询特征。

在本发明的实施例中，参见图3所示，假设作为V2IFormer模型的编码器输入的BEV特征尺寸为[H,W,C]的张量，经过N层由Multi-Head Self-Attention、Add&Norm、FeedForward Network和Add&Norm组成的编码器单元，其输出作为后续解码器的输入。路端的感知结果(Infrastructure Perception)通过实时通信模块传递到车端作为先验信息，经过坐标系转换、车辆自身感知范围内目标筛选以及针对传输与计算时延进行时间对齐与运动补偿的预处理操作后，利用多层感知机(MLP)升维生成尺寸为[m,C]的可学习Infrastructure queries，再与Object queries(即一系列可学习的位置编码，尺寸为[n-m,C]，通过随机初始化生成)一起经过M层解码器单元后得到解码器模块的最终输出。而每个解码器单元中，由于输入的Infrastructure queries和Object queries不在一个空间域内，需要经过一层Multi-Head Self-Attention和Add&Norm的变换，再与尺寸为[n-m,C]的Object queries拼接组成尺寸为[n,C]的queries，再经过Multi-Head Self-Attention、Add&Norm、Multi-Head Self-Attention、Add&Norm、Feed Forward Network和Add&Norm的学习计算得到解码器的输出。同时，在模型相对应位置嵌入空间位置编码(SpatialPosition Encoding)，分别依据sin和cos函数计算两个维度的编码值，拼接在一起后，其尺寸与特征图尺寸相同，可以直接与特征图相加，从而让特征图的像素间保持空间位置关系。图3中，表示拼接，/>表示相加。编码器(Encoder)模块的层数N和解码器(Decoder)模块的层数M均优选为4。n的取值优选为100，m的取值优选为50。BEV特征(BEV Feature)尺寸H为400，W为400，通道数C为256。

上述空间位置编码是在输入到编码器模块和解码器模块中的Multi-Head Self-Attention前嵌入到相对应的特征中。编码器模块和解码器模块中的四个多头注意力层Multi-Head Self-Attention，其执行多头注意力所需的值(Value)、键(Key)和查询(Query)分别是不同的，其中第一多头注意力层的值为前述的特征级数据，键和查询均为嵌入空间位置编码的特征级数据；第二多头注意力层的值、键和查询均为第一查询特征；第三多头注意力层的值为第三查询特征，键和查询均为嵌入第二查询特征的第三查询特征；第四多头注意力层的值为编码特征，键为嵌入空间位置编码的编码特征，查询为嵌入第二查询特征的第四查询特征。

另外，在图2所示的框架中，图像的主干网络可采用BEVFormer^[4]网络，该框架学习了具有时空Transformer的统一BEV表征。BEVFormer通过空间交叉注意力(Spatial Cross-Attention)，基于每个预设的网格状BEV Queries从跨相机视图的感兴趣区域提取空间特征，同时利用时间自注意力(Temporal Self-Attention)来递归融合历史BEV信息。点云的主干网络采用VoxelNet^[5]或PointPillars^[6]，将点云转化为Voxel或Pillars特征，再进而转化为BEV特征。FFN网络包括两个分支：分类与回归，它们主要由一系列线性层网络组成。模型训练时，使用focal loss监督目标的分类；使用L1 loss监督3D检测框的回归。

上述BEVFormer^[4]、VoxelNet^[5]或PointPillars^[6]网络均属于现有技术，具体参见以下文献：

[4]Li,Zhiqi,et al."Bevformer:Learning bird’s-eye-view representationfrommulti-camera images via spatiotemporal transformers."Computer Vision–ECCV2022:17th European Conference,Tel Aviv,Israel,October 23–27,2022,Proceedings,PartIX.Cham:Springer Nature Switzerland,2022.

[5]Zhou,Yin,and Oncel Tuzel."Voxelnet:End-to-end learning for pointcloud based 3d object detection."Proceedings of the IEEE conference oncomputer vision and pattern recognition.2018.

[6]Lang,Alex H.,et al."Pointpillars:Fast encoders for objectdetection from point clouds."Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition.2019.

另外需要说明的是，上述特征-结果级融合的车路协同感知方法，其具体实现时需要依赖于路端感知数据和车端感知数据。路端感知数据和车端感知数据的采集方式可以采用现有技术实现，但在本发明的实施例中，进一步提供了一种车路协同场景下的路端感知数据和车端感知数据采集系统。在该场景下，自动驾驶车辆经过路侧感知设备时通过通信模块发送的路端感知数据，同时记录车辆自身通过摄像头和激光雷达采集的车端感知数据。

如图4所示，车路协同场景下的展示了数据采集系统形式，其包含了路端感知模块、V2I实时通信模块、车端定位模块和车端融合感知模块四个部分。

路端感知模块：由高清晰度枪式彩色定焦摄像机、卡口摄像机、高清晰度变速球形变焦摄像机、高清晰度鱼眼摄像机、毫米波雷达、边缘计算设备、路端通信单元、GPS和云端平台组成。高清晰度枪式彩色定焦摄像机负责远距离的视频检测；卡口摄像机负责近距离的目标抓拍和视频检测；高清晰度变速球形变焦摄像机可以通过旋转角度与变焦放大进行目标的抓拍；高清晰度鱼眼摄像机负责智能杆下盲区的视频监测；毫米波雷达通过探测回波信号来感知周围环境中的物体，获取其距离、速度和方向等信息；边缘计算设备支持雷视融合感知分析，为AI算法提供算力支撑；路端通信单元负责与车端、云端通信单元进行通信，上传路端感知数据；GPS用于确定路端设备的绝对位置；云端平台用于接收所有智能杆的数据，基于大数据分析实现全路段的实时监控。各传感器通过GPS授时同步，并完成相应的内参外参标定。在高速路端的中间架设智能杆，感知设备与通信单元部署在智能杆顶部，机箱(内置电源、边缘计算设备)部署在智能杆的底部，通过多种相机捕捉高速公路视频流，同时接入毫米波雷达实现雷视融合，在提高感知精度和鲁棒性的同时实现全天候感知。在高速路段每间隔一定的距离架设智能杆等设备，利用云端平台共同构建整个路段的实时全景，并实现监控全覆盖。

V2I实时通信模块：基于V2I通信协议搭建数据传输通道，实现路端通信单元与车端通信单元的实时通信。

车端定位模块：采用基于轮式里程计、IMU和GPS的融合定位方法。轮式里程计(Wheel Odometry)是一种通过测量车辆轮子的旋转来估计车辆移动距离和方向的方法。它可以提供实时的、高频率的位置估计，但是由于地形复杂不平、地面光滑和轮胎磨损等因素的影响，轮式里程计的误差会随着时间的推移而累积。IMU(惯性测量单元)由加速度计和陀螺仪组成，可以测量车辆的加速度和角速度，从而推导出车辆的姿态和运动状态。IMU可以提供高频率的数据，但是由于存在漂移等误差，它的位置估计会随着时间的推移而偏离真实位置。GPS(全球定位系统)是一种使用卫星信号进行定位的技术。它可以提供较为准确的位置估计，但是由于信号受遮挡和多径效应等因素的影响，它在城市、山区等环境下的定位精度较低。在此使用基于扩展卡尔曼滤波(Extended Kalman Filter,EKF)的方法融合多种传感器设备来实现准确定位，这种方法将轮式里程计和IMU的数据用于预测车辆的位置，并将GPS的数据来校正位置估计。扩展卡尔曼滤波算法可以将多个传感器数据融合起来，形成一个统一的状态估计，以获得更准确和可靠的位置估计。

车端融合感知模块：由32线激光雷达、四个彩色广角相机、边缘计算设备、车端通信单元组成。其中，激光雷达的有效测量范围为200米，水平视场为360°，垂直视场为40°，采样频率为10Hz；相机的采样频率为10Hz，分辨率为1280×800。各传感器通过GPS授时同步，并完成相应的内参外参标定。四个广角相机实现视觉环视覆盖，激光雷达获取车端周围点云数据，两者实现车端BEV(Bird Eye View，鸟瞰图)视角下的多模态融合感知，同时接收自车周围的路端感知数据进行融合，实现车路协同感知；边缘计算设备是基于双NvidiaJetson AGX Orin的嵌入式GPU模组开发的满足车规要求的AI边缘计算设备，它采用主从机冗余设计保障系统的安全与稳定，并搭配车规级MCU处理器，为自动驾驶算法提供算力支撑；车端通信单元用于与路端通信单元进行通信。

车端和路端之间的各个坐标系转换关系如图5所示。其中，图像坐标是以相机主点(即相机光轴与图像平面的交点，一般位于图像平面中心)为原点，x轴水平向右，y轴水平向下的二维坐标系。相机坐标系是以相机光心为原点，x轴和y轴与图像平面坐标系的x轴和y轴平行，z轴与相机光轴平行向前、与图像平面垂直。激光雷达坐标系是以LiDAR传感器的几何中心为原点，x轴水平向前，y轴水平向左，z轴竖直向上，符合右手坐标系规则。

基于上述系统采集的原始数据，可以对其进行标注后用于对图2所示由骨干网络、特征融合模型和前向网络构成的车路协同感知模型框架进行训练。该框架预先在标注数据集上进行训练后，方可用于实际的感知推理。每个样本的标注一般需要包括目标的类别、尺寸、偏航角、遮挡和截断信息。

因此，在训练上述车路协同感知模型框架之前，需要预先通过离线数据采集、数据标注构建车路协同数据集，进而训练该框架，实现车端与路端的协同感知。在本发明的实施例中，离线数据采集、数据标注过程如下：

离线采集数据：分别在市区、乡村和高速公路等不同场景，白天、夜晚的不同时间段，以及晴天、雨天、雾天和雪天等不同天气情况下进行数据的采集，在当自动驾驶车辆经过路侧设备的可检测区域时，分别保存该时段路侧感知数据和自动驾驶车辆的传感器数据。对保存的数据以激光雷达时间戳为基准，按照10Hz的频率对车端数据进行抽样得到离散帧，同时与路端数据以时间间隔最近为原则进行时间戳的匹配，从而构建一个大规模、多模态、多视角的车路协同数据集。每一帧数据包括车端四张图像(包括前视图像、后视图像、左视图像、右视图像)、激光雷达旋转一周扫描得到的点云、同步后的路侧数据(包括目标位置、尺寸、朝向角、速度信息)。

数据标注：依据各传感器的内外参数，利用2D&3D联合标注技术，标注图像和点云数据中的目标2D和3D框，同时标注目标的类别、尺寸(包括长、宽、高)、偏航角、遮挡、截断信息。

(1)目标标注的类别有：汽车(Car)、卡车货车(Truck)、迷你车(miniCar)、厢式货车(Van)、行人(Pedestrian)、自行车(Bicycle)、摩托车(Motorcycle)、三轮车(Tricycle)、公交巴士(Bus)、叉车(Forklift truck)、货架(Storage racks)、锥桶(Traffic_cone)、动物(Animal)。

(2)偏航角：目标机体在水平面上投影的朝向与规定正方向之间的角度，范围为[-pi,pi]。

(3)障碍物遮挡：从[0,1,2]三个整型数据中取值，分别表示不遮挡、0％～50％遮挡，50％～100％遮挡。

(4)障碍物截断：使用范围在[0,1]浮点类型的数据表示物体截断程度，0表示无截断，1表示完全截断。

通过上述数据采集和标注得到数据集后，可把数据集按比例划分成训练集、验证集和测试集(比例可设置为5:2:3)，分别用于模型的训练、验证与测试。测试结果表明，本发明在感知范围、感知精度和感知鲁棒性方面均取得了优异的效果。

在感知范围方面，受限于单车传感器的物理特性限制，只能在以自车为半径的50m范围内提供可靠的环境感知，而本方法借助于车路协同感知，将车辆的感知范围提升至100m，为自动驾驶提供更加广阔的视野。

在感知精度方面：使用所有类别的检测精度的平均值mAP(mean AveragePrecision,mAP)衡量感知精度的大小。与单车自动驾驶感知的感知精度相比，车路协同感知能够有效利用车辆与道路设施之间的多元数据，并在时空异步、通信带宽受限的情况下，提升了5.6％的感知精度，可以为自动驾驶提供更加安全、高效的环境感知。

在感知鲁棒性方面，在单车智能由于遮挡、视野盲区等导致的感知失效问题，路端感知可以为车端提供“上帝视角”，依靠车路协同的多方位感知大幅提高了感知的稳定性与鲁棒性，误检率较于单车智能降低7.8％，漏检率较于单车智能降低21.4％。在存在环境变化与干扰的情况下，保证自动驾驶感知的稳定与可靠。

在数据传输消耗方面，使用车路融合检测过程中路端向车端传输的时延来衡量数据传输消耗的大小，由于路端向车端传输结果级的感知数据，此方法数据传输更小，通信时延小于100ms，有效降低了带宽消耗。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的特征-结果级融合的车路协同感知方法对应的一种电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的特征-结果级融合的车路协同感知方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的特征-结果级融合的车路协同感知方法对应的一种计算机可读存储介质，该所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的特征-结果级融合的车路协同感知方法。

具体而言，在上述两个实施例的计算机可读存储介质中，存储的计算机程序被处理器执行，可执行前述S1～S3的步骤。

可以理解的是，上述存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是X86架构或ARM架构的处理器，包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit,GPU)，网络处理器(Network Processor，NP)等。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的系统和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种特征-结果级融合的车路协同感知方法，其特征在于，包括：

2.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述特征融合模型由编码器模块和解码器模块组成，模型输入为所述特征级数据和结果级数据；

3.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述路端感知数据为通过雷视融合感知分析得到的结果级数据，包括目标的位置、尺寸、朝向角和速度信息；所述车端感知数据包括摄像头采集的图像和激光雷达采集的点云数据。

4.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述路侧感知设备由间隔安装于道路侧部的智能杆以及云端平台组成；每根智能杆上安装有枪式彩色定焦摄像机、卡口摄像机、变速球形变焦摄像机、鱼眼摄像机、毫米波雷达、边缘计算设备、路端通信单元和GPS设备；枪式彩色定焦摄像机负责远距离的视频检测；卡口摄像机负责近距离的目标抓拍和视频检测；变速球形变焦摄像机可以通过旋转角度与变焦放大进行目标的抓拍；鱼眼摄像机负责智能杆下盲区的视频监测；毫米波雷达通过探测回波信号来感知周围环境中的物体，获取其距离、速度和方向等信息；边缘计算设备支持雷视融合感知分析，为AI算法提供算力支撑；路端通信单元负责与车端、云端通信单元进行通信，上传路端感知数据；GPS设备用于确定路端设备的绝对位置；云端平台用于接收所有智能杆的数据，基于大数据分析实现全路段的实时监控。

5.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述通信模块采用V2I实时通信模块，其基于V2I通信协议搭建数据传输通道，实现路端通信单元与车端通信单元的实时通信。

6.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述自动驾驶车辆中，车端定位模块采用轮式里程计、IMU和GPS为传感器，并基于扩展卡尔曼滤波进行融合定位。

7.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述自动驾驶车辆中，车端融合感知模块包括激光雷达、分布于车辆四周的四个彩色广角相机、边缘计算设备和车端通信单元；各传感器通过GPS授时同步，并完成相应的内参外参标定；车端通信单元用于与路端通信单元进行通信，获取路端感知数据；四个广角相机实现视觉环视覆盖，激光雷达获取车端周围点云数据，两者实现车端鸟瞰图视角下的多模态融合感知，同时接收自车周围的路端感知数据进行融合，实现车路协同感知；边缘计算设备用于为自动驾驶所需的计算提供算力支撑。

8.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述骨干网络、特征融合模型和前向网络构成的车路协同感知模型框架，预先在标注数据集上进行训练，且每个样本的标注包括目标的类别、尺寸、偏航角、遮挡和截断信息。

9.如权利要求1所述的特征-结果级融合的车路协同感知方法，其特征在于，所述图像对应的骨干网络优选为BEVFormer网络，所述点云对应的骨干网络优选为VoxelNet或PointPillars。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1~9任一所述的特征-结果级融合的车路协同感知方法。

11.一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~9任一所述的特征-结果级融合的车路协同感知方法。