CN117173399A

CN117173399A - 一种跨模态交叉注意力机制的交通目标检测方法及系统

Info

Publication number: CN117173399A
Application number: CN202311142851.5A
Authority: CN
Inventors: 李旭; 王贲武; 兰浩然; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-05

Abstract

本发明公开了一种跨模态交叉注意力机制的交通目标检测方法及系统，至少包括多模态特征深度融合的3D目标检测网络模型，所述模型包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云‑图像交叉注意力融合模块和检测任务处理模块，本方法及系统分别对点云分支主干网络和图像分支主干网络进行了细粒度特征提取，在点云分支中采用动态体素化和稀疏卷积的方式进一步提升了检测速度，在图像分支中通过跨层连接多层次特征使得图像特征具备了丰富的多尺度信息，该网络提升检测性能的同时，还可以面向遮挡场景和小尺度目标场景实现稳定的目标检测，有效降低了单一传感器感知目标的不准确性，实现了更加准确、鲁棒的检测性能。

Description

一种跨模态交叉注意力机制的交通目标检测方法及系统

技术领域

本发明属于计算机视觉及自动驾驶智能感知的技术领域，涉及一种雷视融合多交通目标检测方法，主要涉及了一种跨模态交叉注意力机制的交通目标检测方法及系统。

背景技术

在城市交通场景中，对自动驾驶汽车周围环境进行探测的多交通目标感知是汽车自动驾驶中的重要前提，通过识别交通信号标志、其他汽车、自行车和行人等目标，以及感知周围物体的距离和速度，从而及时做出判断和反应，能够为后续的智能导航、路径规划等功能模块提供数据支撑。激光雷达和相机作为自动驾驶目标感知领域中两种最常用的传感器，分别提供精确的3D空间信息和丰富的颜色纹理特征。由于传感器自身的限制，激光雷达点云数据本身缺乏具体的语义特征且较为稀疏，远距离或拥堵情况下几乎失效，而相机传感器获取的RGB图像不具备三维空间的深度信息，被动接收反射光导致成像功能对于光照极为敏感，也造成了感知精度的敏感性。

依靠单模态方法在遮挡、多尺度变化条件下效率低下且不可靠，为获取更大范围、更精确的环境信息，将两者优势充分结合为城市高密度环境下多交通目标的高精度感知提供了可能。但是，由于RGB图像和点云属于异源异构数据，融合方式的差异直接影响到检测器的性能，如何将这两种数据有效地组合起来仍然具有挑战性。

近年来，基于深度学习的感知方法为跨模态数据融合提供了新的解决方案。数据融合方法包括三个层级：数据级、特征级和决策级。目前工业领域应用最多的雷视融合方法是决策级融合，其优势是鲁棒性强，但本质依然是单传感器检测。数据级融合在初始阶段创建依赖于多模态的新数据表征，设计合理的融合方式虽然能够微幅提升感知精度，但要求模态间严格对齐，基于原始数据量的操作也增加了感知推理时间，对于车载颠簸或其他易受震动的场景并不适用。特征级融合介于数据级和决策级之间，实现跨层模态间的特征交互，现有的大多数方法直接采用特征拼接的方式，忽略了噪声干扰对于融合特征质量的干扰，缺乏对特征融合粒度的综合考虑。此外，深度学习本身需要足够数量的丰富样本提取目标的强相关特征，现有的数据增强方法仅针对单模态数据，如何保证多模态数据的连续性，关联数据增强方式，对模型的泛化性能尤为重要。

发明内容

本发明正是针对当前多源传感器融合目标检测研究中存在的异构数据如何进行特征对齐及融合问题，提供一种跨模态交叉注意力机制的交通目标检测方法及系统，至少包括多模态特征深度融合的3D目标检测网络模型，所述模型包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云-图像交叉注意力融合模块和检测任务处理模块，本方法及系统分别对点云分支主干网络和图像分支主干网络进行了细粒度特征提取，在点云分支中采用动态体素化和稀疏卷积的方式进一步提升了检测速度，在图像分支中通过跨层连接多层次特征使得图像特征具备了丰富的多尺度信息，该网络提升检测性能的同时，还可以面向遮挡场景和小尺度目标场景实现稳定的目标检测，有效降低了单一传感器感知目标的不准确性，实现了更加准确、鲁棒的检测性能。

为了实现上述目的，本发明采取的技术方案是：一种跨模态交叉注意力机制的交通目标检测方法，至少包括多模态特征深度融合的3D目标检测网络模型，所述模型中包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云-图像交叉注意力融合模块和检测任务处理模块，其中，

所述跨模态数据增强模块：依次经过点云数据增强、图像数据增强和图像-点云数据关联后，得到增强后的像素坐标点；

所述点云分支主干网络模块：依次经过分组、采样和稀疏卷积特征提取步骤后，通过体素划分法将点云划分到独立的体素中，进行点云特征提取；

所述图像分支主干网络模块：包括编码器和解码器，采用ResNet与特征金字塔网络结合的方式提取图像特征；

所述点云-图像交叉注意力融合模块：用于对齐提取后的点云特征和图像特征进行融合；

所述检测任务处理模块：基于中心点的检测头用于目标回归，分别求解中心点位置和目标框几何参数，完成目标检测任务。

为了实现上述目的，本发明还采取的技术方案是：一种跨模态交叉注意力机制的交通目标检测方法，包括如下步骤：

S1,数据集构建：所述数据集包括点云数据和图像数据，多交通目标感知数据集，采集车载相机与激光雷达的同步数据进行标注和标定，形成点云-图像多交通目标感知数据集；

S2，跨模态数据增强：包括点云数据增强、图像数据增强和图像-点云数据关联，

所述点云数据增强方法具体为：对点云及其3D包围框内点进行随机旋转、尺度变换和二次随机旋转后，记录该帧点云的ID和随机处理参数；

所述图像数据增强方法具体为：使用随机旋转、随机翻转和多尺度变换的方法，对图像进行数据增强操作；

所述图像-点云数据关联具体为：基于经过点云数据增强保存的数据增强参数，根据变换参数反转所有增强数据，获得3D关键点的原始坐标，根据外部投影参数在相机空间中找到其对应的原始像素坐标，将对应像素坐标点按照图像数据增强的方法进行处理，得到增强后的像素坐标点；

S3，点云特征提取：包含分组、采样和稀疏卷积特征提取三个步骤，通过体素划分法将点云划分到独立的体素中，进行点云特征提取；

S4，图像特征提取：采用ResNet与特征金字塔网络结合的方式来提取图像特征；

S5，点云-图像交叉注意力融合：基于图特征的重映射和交叉注意力机制，将对齐提取后的点云特征和图像特征进行融合；

S6，检测任务处理：基于中心点的检测头用于目标回归，分别求解中心点位置和目标框几何参数；

S7,损失函数计算：所述损失函数包括热力图损失、中心点位置偏移损失、地面高度损失、目标尺寸损失和偏航角正余弦损失，将所有损失合并，可以得到组合Loss；

S8，训练模型并输出：采用PyTorch深度学习框架训练目标检测网络模型，完成目标检测。

作为本发明的一种改进，所述步骤S2中的点云数据增强具体包括：

S21：设每帧获取的点云数据P_i(x_i,y_i,z_i)∈R³，共N个点，其中第k个目标的真实3D包围框B_i参数化为其中/>是中心位置，/>是长度、宽度、高度，/>是围绕z轴的偏航旋转；

S22：对真实3D包围框及框内点随机旋转，旋转因子为均匀分布的随机变量△θ∈[-π/10,π/10]；

S23：对全局点云应用尺度变换，将帧内所有点P_i(x_i,y_i,z_i)与均匀分布尺度变换因子λ∈[0.95,1.05]相乘，对所有点云进行全局缩小和放大；

S24：对全局点云应用随机旋转，将全局旋转应用于所有3D包围框B_i和整个点云，全局旋转偏移量为均匀分布的随机变量△γ∈[-π/4,π/4]；

S25：记录该帧点云的ID和随机处理参数，对点云x.pcd顺时针旋转angel°，记为{x，angel°}。

作为本发明的一种改进，所述步骤S3具体包括：

S31：进行点云分组，给定点云P＝{p₁,p₂,…,p_N}，将N个点分配给大小为K×T×F的缓冲区，其中K为最大体素数，T为体素中的最大点数，F表示特征维度；

S32：进行体素采样，引入动态体素化，定义F_V(p_i)为将每个点p_i分配给该点所在的一个体素v_j的映射，并将F_P(v_j)定义为在一个体素v_j内收集点的映射，公式表示如下：

S33：设计稀疏卷积提取点云特征，采用子流形稀疏卷积SubMConv3d，仅当感受野中心点位置处于活动状态时才会进行卷积运算，中间三个卷积块的步长设置为2，输入体素特征大小为16×10×1600×1408，子流形稀疏卷积1尺寸为16×10×1600×1408。

作为本发明的另一种改进，所述步骤S5具体包括：

S51：设图像主干中提取的特征图为Z∈R^h×w×c，其中h、w、c分别为全局特征图的高度、宽度和通道；

S52：添加一个1×1卷积来减少特征维度，创建一个新的特征映射F∈R^h×w×d；

S53：将F的空间维数变平为一维，得到一个高宽的特征向量；

S54：设计注意力机制提取特征，键Q和值V从图像特征F_i＝{f₁,f₂,…,f_k}中生成，查询由体素特征P＝{p₁,p₂,...,p_i}生成：

Q_i＝p_iW^Q,K_j＝f_jW^K,V_j＝f_jW^V

其中和/>是线性投影，对于第i个查询Q_i，根据跨模态查询与键之间的点积相似度计算注意力权重：

其中，是一个比例因子，交叉注意机制的输出定义为根据注意权重对所有值的加权和：

归一化注意力权值s_i，j代表了不同空间像素f_j和体素p_i之间的相似性；

S55：设计前馈网络来产生最终的二维图像特征，如公式所示：

其中，FFN(·)是单层全连接层神经网络，聚合的图像特征由全连接层处理后，与原始激光雷达点云特征连接，生成主干特征。

作为本发明的另一种改进，所述步骤S6具体包括：

S61：采用基于热力图的回归方式，取值为Y∈[0,1]，根据特征图预测出各个目标的中心点位置；

S62：设计卷积头输出中心点位置偏移o∈R²、高度h∈R、尺寸s∈R³、偏航角正余弦γ∈R²，结合中心点位置，形成完整3D检测框.

作为本发明的又一种改进，所述步骤S7中，

采用焦点损失函数来计算整个网络的热力图损失，其中和α和β是超参数，设置为2和4，N是图片中目标的个数；

采用SmoothL1损失函数计算中心点偏移回归损失值，其中o_p表示预测的中心点偏移，o_g表示想学习到的中心点偏移；

采用损失函数SmoothL1来计算地面高度损失，其中h_p表示预测的中心点距离地面高度，h_g表示距离地面高度的真实值；

采用SmoothL1函数计算目标尺寸损失，其中s_p为预测目标的长宽高集合、s_g为目标真值的长宽高集合：

采用损失函数SmoothL1计算偏航角正余弦损失，其中γ_g，γ_p∈R²包含偏航角的正弦值和余弦值，分别代表预测值和真实值：

与现有技术相比，本发明具有的有益效果：

(1)本发明提出了一种基于跨模态数据增强与交叉注意力机制的雷视融合多交通目标检测方法，借助激光雷达与相机互补的感知优势，实现了交通目标的多尺度检测，克服了遮挡场景和小尺度目标场景容易漏检的问题，有效提升了检测器的鲁棒性；

(2)本发明针对多源传感器数据增强过程中特征难以对齐的问题，利用激光雷达与相机之间的标定信息，设计了图像-点云数据关联步骤，保证了数据增强方式下数据的连续性，进而增加了样本的多样性，引导网络学习交通目标强相关的任务，相比于现有的融合方法如PointAugmenting只能处理增强前的数据，所提出的数据关联模块不仅可以对齐不同类型的关键点(例如，体素中心)，还可以处理两种模态都得到增强的情况；

(3)本发明针对多源传感器融合时出现的异构数据表达困难，从点云和图像的本质出发，动态关注图像像素级特征、点云体素级特征，建立映射关系划定两者的特征邻域，基于特征对其关系聚合特征并进行连接，获得了丰富的多尺度信息，增强了异构数据表达，通过子流形稀疏卷积提升运算速度的同时，极大提升了交通目标的感知精度，与单一传感器或特真正堆叠融合表达的检测方法相比，本发明提出的方法获得了更好的实时性和更精确的检测效果。

附图说明

图1是本发明方法的步骤执行操作整体流程图；

图2是本发明的多模态特征深度融合的3D目标检测网络结构示意图；

图3是本发明方法中图像-点云数据关联过程的示意图；

图4是本发明方法中点云特征提取关键模块子流形稀疏卷络结构示意图；

图5是本发明的图像特征提取关键模块特征金字塔网络结构示意图；

图6是本发明的点云-图像交叉注意力融合模块结构示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

一种基于跨模态数据增强与交叉注意力机制的雷视融合多交通目标检测方法，如图1所示，具体包括如下步骤：

步骤S1：构建点云-图像多交通目标感知数据集，采集车载相机与激光雷达的同步数据进行标注和标定，结合已有数据样本，共同组建原始数据与标签。

设计多模态特征深度融合的3D目标检测网络模型，如图2所示，该网络主要包含跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、交叉注意力融合模块和检测任务处理模块，实现深度特征对齐和多模态数据特征的有效融合，具体包括以下步骤：

步骤S2：构建跨模态数据增强模块，该模块包含3个内容，分别是点云数据增强处理、图像数据增强处理和图像-点云数据关联：

设计点云数据增强方法，对点云及其3D包围框内点随机旋转、尺度变换、随机旋转，设每帧获取的点云数据P_i(x_i,y_i,z_i)∈R³，共N个点，其中第k个目标的真实3D包围框B_i参数化为其中/>是中心位置，/>是长度、宽度、高度，/>是围绕z轴的偏航旋转，令包围框B_i内所有激光雷达点集合定义为：

S_k＝{p|p∈R^N×3}

其中p(x^k,y^k,z^k)表示当前帧点云中第k个点，范围

首先，对真实3D包围框及框内点随机旋转，根据3D包围框B_i可获得激光雷达点集S_k，通过一个均匀分布的随机变量△θ∈[-π/10,π/10]，将S_k内所有点p(x^k,y^k,z^k)绕着z轴旋转。然后向S_k中的每个点p(x^k,y^k,z^k)添加一个均值为零、标准差为1的高斯分布平移变量△T＝(△x,△y,△z)，其中△x,△y,△z为点p的随机平移变量，为了避免变换后的3D包围框以及框内点与其他物体发生干涉，如果检测到发生干涉，那么将取消此次变换并进行下一次变换；

其次，对全局点云应用尺度变换，将帧内所有点P_i(x_i,y_i,z_i)与均匀分布尺度变换因子λ∈[0.95,1.05]相乘，对所有点云进行全局缩小和放大，全局尺度增强的引入提高了用于检测不同大小和距离的目标的网络的鲁棒性；

然后，对全局点云应用随机旋转，将全局旋转应用于所有3D包围框B_i和整个点云，全局旋转通过添加了一个全局旋转偏移量将所有点云沿着z轴旋转，全局旋转偏移量是一个均匀分布的随机变量△γ∈[-π/4,π/4]；

最后，记录该帧点云的ID和随机处理参数，如对点云000001.pcd顺时针旋转5°，记为{000001，5°}，需要说明的是，以上所有的数据增强操作并非同时进行，设计概率函数选择是否进行增强处理，以及选择增强处理的方式；

设计图像数据增强方法，参考对点云数据采取的几何变换的数据增强方法，使用随机旋转、随机翻转和多尺度变换的方法，对图像进行数据增强操作，增加样本的多样性，阻止网络学习与交通目标检测不相关的任务；

设计图像-点云数据关联模块，对于多模态数据来说，保证数据连续性，找到激光雷达点云和相机图像之间的对应关系直接影响到最终的检测精度，两种模式数据使用不同的策略进行数据增强，例如沿z轴旋转3D点云结合随机翻转2D图像，设计数据关联模块对齐二者特征至关重要，如图3所示，过程如下：

在应用与几何相关的数据增强时，利用点云数据增强方法中保存的数据增强参数，根据变换参数反转所有增强数据，从而获得3D关键点的原始坐标，然后根据外部投影参数在相机空间中找到其对应的原始像素坐标，再将对应像素坐标点按照图像数据增强的步骤进行处理，得到增强后的像素坐标点，此时即可将3D空间点与2D像素点相关联。相比于现有的融合方法如PointAugmenting只能处理增强前的数据，所提出的数据关联模块DA不仅可以对齐不同类型的关键点(例如，体素中心)，还可以处理两种模态都得到增强的情况；

步骤S3：设计点云分支主干网络，点云是一组三维空间内稀疏且无序的点集，采用基于体素表示的方法提取点云特征，通过体素划分法将点云划分到独立的体素中，解决了点云无序性的问题，主要包含分组、采样和稀疏卷积特征提取3个子步骤：

S31：点云分组，给定一个点云P＝{p₁,p₂,…,p_N}，将N个点分配给大小为K×T×F的缓冲区，其中K为最大体素数，T为体素中的最大点数，F表示特征维度，在分组阶段，根据每个点p_i的空间坐标将其分配给体素v_j；

S32：体素采样，常规采样方法存在局限性，当点和体素超过固定容量时，直接丢弃可能对检测有用的点，导致不确定的体素嵌入，从而导致不稳定或抖动的检测结果，并且填充的体素成本和不必要的计算，阻碍了运行时的性能，本方法引入动态体素化方法来克服这些缺点，定义F_V(p_i)为将每个点p_i分配给该点所在的一个体素v_j的映射，并将F_P(v_j)定义为在一个体素v_j内收集点的映射，公式表示如下：

体素的数量和每个体素的点数将取决于特定的映射函数，而不再是固定的。这就消除了对固定大小的缓冲区的需要，并消除了随机点和体素的丢弃；

S33：稀疏卷积提取点云特征，点云的稀疏性使得体素网格中存在许多空体素，常规3D卷积操作计算量大，空体素特征的存在将会极大增加反向传播过程中的计算成本，本方法采用子流形稀疏卷积SubMConv3d，仅当感受野中心点位置处于活动状态时才会进行卷积运算，避免了空间稀疏卷积生成过多的活动位置，所设计的子流形稀疏卷积如图4所示，中间三个卷积块的步长设置为2，从而快速提取抽象体素特征，通过将子流形稀疏卷积和空间稀疏卷积结合的方式，在尽量保持稀疏性的同时又增大了感受野；

步骤S4：设计图像分支主干网络，对于深度卷积网络，从一个特征层卷积到另一个特征层，卷积核遍历整个图片进行卷积，大尺度目标所占的像素要多于小尺度目标，所以在卷积过程中往往会保留更多大尺度目标的信息，随着网络层数的加深，小尺度目标的特征会越来越少，为了缓解网络退化和小尺度目标的边缘化问题，采用ResNet与特征金字塔网络结合的方式来提取图像特征，图像特征提取分支如图5所示，分为编码器和解码器两个部分，编码器部分包含5个不同的卷积块，每个卷积块与ResNet-50各模块对应；

在图像特征编码过程中，主干网络各个模块将从图像中提取到不同维度的特征，在经过每个模块后，特征图尺寸将变为原来的一半，而特征通道维度则增加一倍，每层输出的特征为(C₁,C₂,C₃,C₄,C₅)，其中C₁表示浅层特征，C₅表示深层特征；

在解码模块中，共有3个反卷积块，首先通过将深层特征信息以双线性插值的方式进行上采样，恢复到与上层特征大小相同的尺寸，然后再利用拼接运算将深层特征与其上一层特征相结合，并继续向浅层传递，在每个拼接过程中，特征(C₁,C₂,C₃,C₄,C₅)都经过1×1卷积降维处理，统一到维度为256。在拼接完成后，再将融合特征经过3×3卷积处理，得到最后的输出。

步骤S5：设计点云-图像交叉注意力融合模块CAF，该模块动态地关注图像的像素级特征，并且每个体素特征以确定性投影矩阵保证的通用映射关系来划定图像平面的特征邻域，然后，CAF基于特征对齐关系聚合图像特征，并将其与原始的三维特征连接，融合模块如图6所示；

S53：将F的空间维数变平为一维，得到一个高宽的特征向量；

S54：设图像特征F_i＝{f₁,f₂,...,f_k}(f_j表示第i个体素空间包含的第j个图像特征)和点云分支主干网络提取的体素特征P＝{p₁,p₂,...,p_i}(p_i表示每个非空体素特征)，键和值从图像特征F_i中生成，查询由体素特征P生成，

Q_i＝p_iW^Q,K_j＝f_jW^K,V_j＝f_jW^V

归一化注意力权值s_i，j代表了不同空间像素f_j和体素p_i之间的相似性，这些值的加权和可以聚合细粒度的空间像素来更新p_i，以全局视图的方式用二维信息丰富了体素特征；

S55：使用前馈网络来产生最终的二维图像特征，如公式所示：

步骤S6：设计检测任务处理模块，三维目标检测对象通常用点云中的3D包围框来表示，包围框没有特定的方向，因此基于锚框的检测器很难枚举所有的方向或为旋转的对象拟合一个轴对齐的检测框，因此本方法设计基于中心点的检测头用于目标回归；

S61：根据特征图预测出各个目标的中心点位置，拟采用基于热力图的回归方式：对于任意尺寸为W×H×3的特征图，经过卷积层，生成一个尺寸为热力图，其中K是检测的类别数，R为步长，热力图的中元素的取值为Y∈[0,1]，若热力图该点为1，则图像中该点是一个检测框的中心，若为0，则该点在图像中为背景。

S62：为了完整地将3D包围框表示出来，还需要预测其他的属性：中心点位置偏移o∈R²、高度h∈R、尺寸s∈R³、偏航角正余弦γ∈R²，由于中心目标点是被映射到了体素网格中，并不是精准的，所以需要预测一个偏差值o进行修正，地面高度h有助于在三维空间中定位物体，并补全被投影删除的缺失的高度信息，尺寸s代表了目标在三维空间中的实际长度、宽度和高度，结合以上的信息，就可以得到一个3D包围框。

步骤S7：训练设计的多模态特征深度融合的3D目标检测网络，网络参数的迭代优化主要使用随机梯度下降算法，其中损失函数主要包括热力图损失、中心点位置偏移损失、地面高度损失、目标尺寸损失和偏航角正余弦损失，损失函数的定义与计算分为以下5个步骤：

(1)：计算热力图损失，热力图用于预测目标中心，决定了目标的有无和分类，在实际场景中，由于点云稀疏性以及地图视图的视角特殊性，检测区域内往往只包含少量的前景车辆点，大多数点为背景点；这就使得检测区域内的负样本损失值大于正样本损失值，分类任务的学习容易被负样本主导，考虑到上述问题，采用焦点损失函数来计算整个网络的热力图损失：

其中和α和β是超参数，设置为2和4，N是图片中目标的个数；

(2)：计算中心点位置偏移损失，每个中心点在经过预测后，都与真实的中心点存在一定的误差，因此采用中心点偏移损失来进行补偿，然后再计算出实际的位置坐标，在训练过程中可以采用SmoothL1损失函数计算回归损失值：

其中o_p表示预测的中心点偏移，o_g表示想学习到的中心点偏移；

(3)：计算地面高度损失，中心点位置偏移仅是在BEV视图下的位置偏移，通过二维特征回归目标在三维空间内的实际位置还需要缺失的高度信息，因此在计算中心点位置偏移的基础上，还需要计算地面高度的损失，损失函数采用SmoothL1来计算：

其中，h_p表示预测的中心点距离地面高度，h_g表示距离地面高度的真实值；

(4)：计算目标尺寸损失，获取目标在三维空间的中心点位置后，需要预测出目标的长度、宽度和高度，通过SmoothL1函数来计算目标的尺寸：

其中，s_p为预测目标的长宽高集合、s_g为目标真值的长宽高集合

(5)：计算偏航角正余弦损失，对于目标的3D包围框的偏航角损失，如果直接预测偏航角再根据偏航角真实值和预测值来计算损失，则会导致偏航角为0和π时出现损失较大的情况，将减缓网络的收敛速度，相比于位置、高度和尺寸的损失，对偏航角的损失计算往往收敛较慢；考虑到上述问题，这里采用偏航角的正弦和余弦值来对角度的大小、朝向是否和真值同向来进行预测，损失函数采用SmoothL1函数来计算目标的偏航角正余弦损失：

其中γ_g，γ_p∈R²包含偏航角的正弦值和余弦值，分别代表预测值和真实值；

将网络的所有损失合并，可以得到组合Loss：

L＝ω₁L_heatmap+ω₂(L_off+L_height+L_size+L_angle)

其中ω₁、ω₂表示不同部分损失的权重系数；

步骤S8：在训练时，采用PyTorch深度学习框架运行设计的网络架构，设置最大迭代次数为I，学习率为lr，权重衰减初始为λ，计算Loss并进行梯度回传，即可更新模型参数。

综上，本发明公开了一种基于跨模态数据增强与交叉注意力机制的雷视融合多交通目标检测方法及系统，公开了了跨模态数据增强模块(CDA，Cross-modal Data AugmentModule)和交叉注意力融合模块(CAF，Cross Attention Fusion Module)来实现深度特征对齐，将点云数据和图像数据输入到跨模态数据增强模块中，进行数据增强操作的同时通过数据关联保证异构数据的同步一致性；并基于特征融合方式提出了多模态特征深度融合的3D目标检测网络，该网络分别对点云分支主干网络和图像分支主干网络进行了精细化的设计，在点云分支中采用动态体素化和稀疏卷积的方式进一步提升了检测速度，在图像分支中通过跨层连接多层次特征使得图像特征具备了丰富的多尺度信息，该网络提升检测性能的同时，还可以面向遮挡场景和小尺度目标场景实现稳定的目标检测，有效克服了单一传感器的特征不齐，难以准确召回交通目标的问题。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：至少包括多模态特征深度融合的3D目标检测网络模型，所述模型中包括跨模态数据增强模块、点云分支主干网络模块、图像分支主干网络模块、点云-图像交叉注意力融合模块和检测任务处理模块，其中，

2.使用如权利要求1所述系统的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于，包括如下步骤：

3.如权利要求2所述的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：所述步骤S2中的点云数据增强具体包括：

4.如权利要求2所述的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：所述步骤S3具体包括：

5.如权利要求2所述的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：所述步骤S5具体包括：

S53：将F的空间维数变平为一维，得到一个高宽的特征向量；

Q_i＝p_iW^Q,K_j＝f_jW^K,V_j＝f_jW^V

6.如权利要求2所述的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：所述步骤S6具体包括：

S62：设计卷积头输出中心点位置偏移o∈R²、高度h∈R、尺寸s∈R³、偏航角正余弦γ∈R²，结合中心点位置，形成完整3D检测框。

7.如权利要求2所述的一种跨模态交叉注意力机制的交通目标检测方法，其特征在于：所述步骤S7中，