CN115082674A

CN115082674A - 基于注意力机制的多模态数据融合三维目标检测方法

Info

Publication number: CN115082674A
Application number: CN202210816612.2A
Authority: CN
Inventors: 朱虎明; 李佳昌; 杨贵鹏; 惠少雄; 王光磊; 王金成; 田小林; 侯彪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-09-20
Anticipated expiration: 2042-07-12
Also published as: CN115082674B

Abstract

本发明提出了一种基于注意力机制的多模态数据融合三维目标检测方法，实现步骤为：建立训练和测试样本集并对数据进行预处理；构建基于注意力机制的多模态数据融合三维目标检测网络；定义基于注意力机制的多模态数据融合三维目标检测网络的损失函数；对网络模型进行迭代训练；获取三维目标的检测结果。本发明利用特征学习网络，初步提取出一些候选区域，然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合，充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息，减小了误差累积，进而提高了局部空间出现多个目标时的检测精度。

Description

基于注意力机制的多模态数据融合三维目标检测方法

技术领域

本发明属于机器视觉和自动驾驶技术领域，涉及一种目标检测方法，具体涉及一种基于注意力机制的多模态数据融合三维目标检测方法，可应用于自动驾驶、机器人、AR和VR等领域。

背景技术

随着车载传感器设备的不断迭代，传统的二维目标检测已经无法满足自动驾驶等应用场景。为了增强自动驾驶车辆的环境感知和定位能力，需要三维目标检测算法检测出环境中物体的空间信息，比如物体在空间中的位置、以及物体的长、宽、高和旋转角等信息。三维目标检测算法需要更多类型的传感器信息来提高检测精度，其中常用的传感器主要是激光雷达和相机。然而，不同的传感器获取的信息形式不同、优缺点不同。激光点云包含精确的空间距离信息，但是数据无序和稀疏，纹理和颜色信息不足，受雨雾天气的影响大；图像具有高分辨率像素和丰富的纹理，但是无法获取物体之间的精确距离，受光线影响大。因此，为了提高三维目标检测算法精度，一般会采用多模态数据融合的方式来提高算法对周围环境的感知能力。

多模态数据融合，也就是对相同场景下，不同传感器数据进行信息的映射拼接。通常会根据多传感器数据融合时机、融合方法的不同，将数据融合方法分为数据融合、特征融合和结果融合，这类方法又被统称为强融合。另外，还有一些方法仅仅是借助于其它模态数据微弱的数据优势来增补自身数据缺陷，这类方法被称为弱融合。如何有效的融合激光雷达和相机之间的数据，达到取长补短的效果，得到更可靠的检测结果，是自动驾驶技术中的难点之一。

虽然目前的一些多传感器融合算法虽然在一定程度上提高了三维目标检测的平均检测精度，但并没有充分利用不同模态数据的特征信息，甚至会带来定位不准确的问题。如Sindagi等人于2019年在International Conference on Robotics and Automation发表的论文“MVX-Net:Multimodal VoxelNet for 3D Object Detection”中，公开了一种点云数据和图像融合的三维目标检测方法。该方法利用标定矩阵将图像信息和原始点云数据进行融合，用设计好的特征提取网络对融合信息进行特征提取，有效的提高了模型的三维目标检测精度。但该方法将图像中的所有像素不加区分的和点云数据进行融合，融合过程粗糙，容易产生误差累积，在局部空间出现多个目标时会出现分类置信度和定位不一致的问题，从而导致模型的三维目标检测精度较低。

发明内容

本发明的目的在于克服现有技术存在的不足，提出了一种基于多传感器融合三维目标检测方法，用于解决现有技术中存在的局部空间出现多个目标时检测精度较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集E₁和测试样本集E₂：

从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据，并对每个点云数据进行预处理，然后将预处理后的T₁个点云数据及其对应的RGB图像组成训练样本集E₁，将剩余的T₂个预处理后的点云数据及其对应的RGB图像组成测试样本集E₂，其中，T≥5000，T₁＞T₂，T₁+T₂＝T；

(2)基于注意力机制的多模态数据融合三维目标检测网络：

(2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构：

构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D，其中，点云特征学习模块，包括顺次连接的三维稀疏卷积网络和区域回归网络；基于Transformer的特征提取模块，包括顺次连接的编码器和解码器；

(2b)定义三维目标检测网络D的损失函数L：

定义包含置信度损失L_conf和三维目标损失L_rpn的三维目标检测网络D的损失函数L：

L＝L_conf+L_rpn；

(3)对三维目标检测网络D进行迭代训练：

(3a)初始化迭代次数为r，最大迭代次数为R，当前三维目标检测网络模型为D_r的权值参数为θ_r，并令r＝1，D_r＝D；

(3b)从训练样本集E₁中无放回的随机选取B个训练样本作为网络模型D_r的输入进行前向传播，实现步骤为：

(3b1)将训练样本集E₁作为三维目标检测网络D_r的输入，点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习，点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成，得到共包含T₁个点云数据的S个候选区域

且每个候选区域至少包含一个点云数据，其中S≥1000，

和

分别表示每个候选区域的中心点坐标值，l^rpn、w^rpn和h^rpn分别表示每个候选区域的长、宽和高，θ^rpn表示每个候选区域的旋转角度值；

(3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息，进行多模态数据拼接，得到N个融合后的点云数据P＝{p_i,Δp_i ^c,Δp_i ^j,f_i},i＝1,2,…,n,其中p_i表示候选区域中的n个点，Δp_i ^c表示候选区域中的每个点到候选区域中心点的距离、Δp_i ^j表示候选区域中的每个点到八个角点的距离，f_i表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值；

(3b3)基于Transformer的特征提取模块中编码器对T₁个融合后的点云数据P进行特征提取，得到P的点云特征；解码器对P的点云特征进行通道加权解码，得到T₁个点云数据中的预测三维目标框x_pre＝{x^pre,y^pre,z^pre,l^pre,w^pre,h^pre}、以及三维目标框对应的角度值θ_pre、分类概率y、置信度概率c和方向概率dir；

(3c)采用三维目标检测网络D的损失函数L，并根据置信度概率c计算置信度损失值L_conf，根据预测的三维目标值x_pre、预测的角度值θ_pre、预测的分类概率y和预测的方向概率dir计算三维目标损失值L_rpn，然后采用随机梯度下降法，通过计算三维目标检测网络D的L_conf与L_rpn的和对权值参数θ_r的偏导数，对θ_r进行更新，得到本次迭代的三维目标检测网络模型D_r；

(3d)判断r＝R是否成立，若是，得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D^*，否则令r＝r+1，D_r＝D，并执行步骤(3b)；

(4)获取三维目标的检测结果：

将测试样本集E₂作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D^*的输入进行前向传播，得到每个测试样本的三维目标检测结果，包括每个测试样本中的预测三维目标框x_pre、以及三维目标框对应的角度值θ_pre和目标类别。

本发明与现有技术相比，具有以下优点：

第一，本发明首先利用特征学习网络，初步提取出一些候选区域，然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合，充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息，避免现有技术因采用所有像素与点云数据进行融合容易产生误差累积的缺陷，在的局部空间出现多个目标时能够有效提高三维目标的检测精度。

第二，本发明使用Transformer编解码的方式，该编解码方式具有强大的特征提取能力，由于该方式的self-attention结构能适应各种不同类型的数据，使其在多模态融合方面表现更好。

附图说明

图1是本发明的实现流程图；

图2是本发明三维目标检测网络的结构示意图。

具体实施方式

以下结合附图和具体实施例，对本发明进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集E₁和测试样本集E₂：

从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据，并对每个点云数据进行预处理，对每个点云数据进行预处理，去噪处理时，将高度超过4.2米的点云数据定义为噪声数据；对点云数据进行随机水平翻转，随机种子设置为688，降采样过程中，设置最少点的个数为1000；然后将预处理后的T₁个点云数据及其对应的RGB图像组成训练样本集E₁，将剩余的T₂个预处理后的点云数据及其对应的RGB图像组成测试样本集E₂，其中，W＝1224，H＝370，N＝10000，K＝4，T₁＝7481，T₂＝7518，T＝14999；

本实例中，采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作的KITTI数据集，包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，共包含80256个标记的目标，还有各种程度的遮挡与截断；标注数据中第一维数据表示类别、第二维数据代表是否为截断图像，第三维数据用四个数字代表遮挡的程度，分别代表完全可见、部分遮挡、大范围遮挡和未知；数据集的公开部分被划分为训练集和测试集，其中训练集和测试集分别包含7481幅RGB图像和对应场景下的点云数据、7518幅RGB图像和对应场景下的点云数据。

步骤2)基于注意力机制的多模态数据融合的三维目标检测网络：

步骤2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构：

构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D，其中，点云特征学习模块，包括顺次连接的三维稀疏卷积网络和区域回归网络；基于Transformer的特征提取模块，包括顺次连接的编码器和解码器；Transformer的整体架构可以分为四个模块：输入模块、编码模块、解码模块和输出模块，而编码器模块一般由N个编码器层堆叠而成。

点云特征学习模块，其所包含的三维稀疏卷积网络包括顺次连接的8个三维稀疏卷积结构；每个三维稀疏卷积结构包括顺次连接的子流形三维稀疏卷积层、批量规范化层和Relu激活层；区域回归网络包括顺次连接的4个复合层和2个全连接层，每个复合层包括顺次连接的三维稀疏卷积层、归一化层和Relu激活层，2个全连接层连接在第4复合层的输出端；4复合层中的卷积层的卷积核大小均为3，卷积核个数均为256，第1卷积层的卷积步长为2，第2、第3、第4卷积层的卷积步长均为1；

多模态数据融合模块，首先对每个候选区域RPN内所有点云数据中的点使用最远点采样方法，在实验设置中采样点数量是256，如果少于这个阈值就不进行采样；然后将图像中的像素色彩信息添加到点云上，具体来说，通过空间转换矩阵将候选框中的所有点映射到图像中去，得到对应点的RGB通道值采样后的点与其对应的RGB图像信息；

对于KITTI官网下载到的所有数据集合，都可以找到包含相机内参、外参的校正文件；下面展示了校正文件"calib_velo_to_cam.txt“的部分内容，表明了激光雷达和左摄像头的相对位置关系；calib_time:15-Mar-201211:37:16R:7.533745e-03-9.999714e-01-6.166020e-04 1.480249e-027.280733e-04-9.998902e-01 9.998621e-01 7.523790e-031.480755e-02T:-4.069766e-03-7.631618e-02-2.717806e-01；矩阵R和向量T提供给我们了相机的外参。当然，为了完成三维点云到相机图像的映射，我们还需要相机的内参。它们保存在"calib_cam_to_cam.txt"文件中，相关内容如下：calib_time:09-Jan-2012 13:57:47；R_rect_00:9.999239e-01 9.837760e-03-7.445048e-03-9.869795e-03 9.999421e-01-4.278459e-03 7.402527e-03 4.351614e-03 9.999631e-01；P_rect_00:7.215377e+020.000000e+006.095593e+02 0.000000e+00 0.000000e+00 7.215377e+02 1.728540e+020.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00 0.000000e+00；矩阵R_rect_00是一个3*3的修正旋转矩阵，用于使相机图像共面，例如，对齐立体视觉平台的多个摄像头，对于这辆KITTI数据采集车，有两部摄像头，这可以通过将左侧摄像头的一行像素直接对齐右侧摄像头的另一行像素，而不是两条在两个相机平面交叉的倾斜直线。由于我们当前主要考虑MONO单通道相机，因此我们将不再深究上述对齐操作的基础理论——但是如果你对此比较感兴趣，可以搜索对极几何epipolar geometry获取更多相关内容。矩阵P_rect_00则包含了相机的内参，我们称之为KK。下列公式展示了如何使用齐次坐标系将KITTI数据集中的激光雷达3D点云X映射到左侧相机的2D相机图像点Y，这里使用了Kittireadme文件中的符号。

Y＝P_rect_xx*R_rect_00*(R|T)_velo_to_cam*X

要实现将KITTI数据集中的点云X映射到相机的2D相机图像点Y上，在程序中主要执行以下几步：遍历获取激光雷达点云信息时，将每个3D点转换为齐次坐标，并存入4D变量X中；应用映射公式，将X映射到相机的图像平面，并将结果存储到变量Y中；将变量Y从齐次坐标系转换回欧几里得坐标系，从而得到对应的图像中的像素位置，并将结果存入点云数据P中。

计算候选区域中的每个点到候选区域中心点的距离，用Δp_i ^c＝p_i-p^c表示，p_i表示候选区域点的坐标，p^c表示候选区域中心点的坐标，然后计算候选区域内每个采样点到候选区域中心点的距离；计算候选区域采样点到候选区域八个角点的距离，用Δp_i ^j＝p_i-p^j,j＝1,2,…,8表示，p^j表示候选区域的八个角点的坐标；进行多模态数据拼接后得到融合后的点云数据

P＝{p_i,Δp_i ^c,Δp_i ^j,f_i},(i＝1,2,…,n),其中p_i表示候选区域中的n个点，f_i表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值；

基于Transformer的特征提取模块，其所包含的编码器包括3个堆叠的特征编码模块，每个特征编码模块包括2个线性层、3个Dropout层和2个归一化层，具体结构为：第1线性层—>第1Dropout层—>第2线性层—>第1归一化层—>第2归一化层—>第2Dropout层—>第3Dropout层；第1线性层的输入、输出通道数分别为256和512，第2线性层的输入、输出通道数分别为512和256，归一化层的输入维度均为256，每个Dropout层的概率值均为0.1；

基于Transformer的特征提取模块，其所包含的解码器包含3个卷积层、3个线性层、3个Dropout层和4个归一化层；3个卷积层的输入维度均为256，卷积核均为1，步长均为1；第1线性层的输入、输出维度分别为64、1,第2线性层的输入、输出维度分别为256、512，第3线性层的输入、输出维度分别为512、256；3个Dropout层的概率值均为0.1；4个归一化层的输入维度都为256；该解码器的具体结构为：第1卷积层—>第2卷积层—>第3卷积层—>第1线性层—>第2线性层—>第1Dropout层—>第3线性层—>第1归一化层—>第2归一化层—>第3归一化层—>第2Dropout层—>第3Dropout层—>第4归一化层。

步骤2b)定义三维目标检测网络D的损失函数L：

三维目标检测网络D的损失函数L为三维目标的置信度损失L_conf和三维目标损失L_rpn的和，公式如下所示。其中分类损失使用的是focal loss公式,focal loss是最初由何恺明提出的，最初用于图像领域解决数据不平衡造成的模型性能问题；

L＝L_conf+L_rpn；

L_conf＝-clog(c)-(1-c)log(1-c)

L_rpn＝β₁L_cls+β₂(L_reg-θ+L_reg-other)+β₃L_dir

L_cls＝-α(1-y)^γlog(y)

L_reg-θ＝SmoothL1(sin(θ_pre-θ))

L_reg-other＝SmoothL1(sin(x_pre-x))

L_dir＝-α(1-dir)^γlog(dir)

其中，IoU是预测目标框和真实目标框的交并比，α^F、α_B分别表示前景、背景的交并比值，β₁＝0.3、β₂＝0.4、β₃＝0.3表示权重，L_cls表示分类损失，α＝0.6和γ＝0.9为分类损失L_cls的超参数，SmoothL1表示回归损失函数，L_reg-θ表示角度损失，θ表示真实的角度值，L_reg-other表示目标框回归值损失，x为真实的目标框，L_dir是方向的分类损失。

步骤3)对三维目标检测网络D进行迭代训练：

步骤3a)初始化迭代次数为r，最大迭代次数为120，当前三维目标检测网络模型为D_r的权值参数为θ_r，并令r＝1，D_r＝D；

步骤3b)从训练样本集E₁中无放回的随机选取2个训练样本作为网络模型D_r的输入进行前向传播，实现步骤为：

步骤3b1)将选取的2个训练样本作为三维目标检测网络D_r的输入，点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习，点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成，得到共包含T₁个点云数据的S个候选区域

且每个候选区域至少包含一个点云数据，其中S≥1000，

和

步骤3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息，进行多模态数据拼接，得到T₁个融合后的点云数据P＝{p_i,Δp_i ^c,Δp_i ^j,f_i},(i＝1,2,…,n),其中p_i表示候选区域中的n个点，Δp_i ^c表示候选区域中的每个点到候选区域中心点的距离、Δp_i ^j表示候选区域中的每个点到八个角点的距离，f_i表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值；

步骤3b3)基于Transformer的特征提取模块中编码器对T₁个融合后的点云数据P进行特征提取，得到P的点云特征；解码器对P的点云特征进行通道加权解码，得到T₁个点云数据中的预测三维目标框x_pre＝{x^pre,y^pre,z^pre,l^pre,w^pre,h^pre}、以及三维目标框对应的角度值θ_pre、分类概率y、置信度概率c和方向概率dir；

步骤3c)采用三维目标检测网络D的损失函数L，并根据置信度概率c计算置信度损失值L_conf，根据预测的三维目标值x_pre、预测的角度值θ_pre、预测的分类概率y和预测的方向概率dir计算三维目标损失值L_rpn，然后采用随机梯度下降法，通过计算三维目标检测网络D的L_conf与L_rpn的和对权值参数θ_r的偏导数，对θ_r进行更新，得到本次迭代的三维目标检测网络模型D_r；

步骤3d)判断r＝120是否成立，若是，得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D^*，否则令r＝r+1，D_r＝D，并执行步骤(3b)；

步骤4)获取三维目标的检测结果：

将测试样本集E₂作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D^*的输入进行前向传播，得到每个测试样本的三维目标检测结果，包括每个测试样本中的预测三维目标框x_pre、以及三维目标框对应的角度值θ_pre、三维目标的类别。本实例中目标的类别有两个，分别是车和行人类别。在KITTI测试集中的三维目标检测精度用mAP作为指标；mAP(mean Average Precision)表示平均精度均值，即多个类别的AP均值，主要用来衡量模型在所有类别上的整体精度表现。平均精度(Average Precision，AP)表示PR曲线下的面积，对应IOU的三种计算方式。AP值主要用来衡量模型在单个类别上的检测精准率，AP值越大，表示这个类别的检测精度越高。

下面结合仿真实验，对本发明的技术效果作进一步的描述。

1.仿真条件和内容：

仿真实验在ubuntu 18.04系统上进行，模型训练使用pytorch 1.6深度学习框架，使用2块NVIDIA RTX 2080Ti显卡,总显存22GB。

仿真实验中用到的数据集为KITTI数据集，该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作的汽车传感器数据，单帧点云数为60000多，图像大小为1243×375，包含9类目标，本仿真仅测试了汽车和行人两类目标作为检测对象，仿真实验中选取7518个样本作为测试样本。

训练和推理过程中，每次均将2个预处理过的样本输入本方法中的三维目标检测模型，经过点云学习模块学习测试样本中的点云特征，得到区域候选框；融合模块将区域候选框中的点云数据与图像数据进行精细化的融合，得到融合后的点云数据，其中每个点的维度由原来的4维扩充至16维；然后将16维的点云数据输入到基于Transformer的特征提取模块，经过编解码处理，得到三维目标检测结果。

2.仿真结果分析：

本发明提出的方法与其他公开的三维目标检测方法进行对比，表1展示了本发明和现有技术MVX-Net方法在KITTI数据集中车和行人目标的检测效果。

表1

由表1的实验结果可以看出，本发明较于现有技术在车和行人检测中均具有更高的三维目标检测精度。本发明在车类别和行人类别上取得了较好的结果，尤其在车类别的中等样例级别上比MVX-Net高出了7.74％，根据实验结果分析，认为在细化阶段处理原始信息，而不是依赖于人工设计的特征或融合特征，能够更好的解析目标结构。另外，在行人类别上的精度低了一些，可能是因为每个候选框选取的点，过分稀疏造成了细节的丢失。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理和结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围内。

Claims

1.一种基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，包括如下步骤：

(1)获取训练样本集E₁和测试样本集E₂：

(2)基于注意力机制的多模态数据融合三维目标检测网络：

(2b)定义三维目标检测网络D的损失函数L：

L＝L_conf+L_rpn；

(3)对三维目标检测网络D进行迭代训练：

(3b)从训练样本集E₁中无放回的选取训练样本作为网络模型D_r的输入进行前向传播，实现步骤为：

且每个候选区域至少包含一个点云数据，其中S≥1000，

和

(3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息，进行多模态数据拼接，得到N个融合后的点云数据P＝{p_i,Δp_i ^c,Δp_i ^j,f_i},i＝1,2,…,n,其中p_i表示候选区域中的i个点，Δp_i ^c表示候选区域中的每个点到候选区域中心点的距离、Δp_i ^j表示候选区域中的每个点到八个角点的距离，f_i表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值；

(4)获取三维目标的检测结果：

2.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(1)中所述的对每个点云数据进行预处理，实现步骤为：对每幅RGB图像对应的点云数据进行去噪处理，并对去噪后的每个点云数据进行随机水平翻转，再对随机水平翻转处理后的点云数据进行降采样，得到T个预处理后的点云数据。

3.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(2a)中所述的三维目标检测网络D，其中：

4.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法，其特征在于，步骤(2b)中所述的置信度损失L_conf和三维目标损失L_rpn，其表达式分别为：

L_conf＝-clog(c)-(1-c)log(1-c)

L_rpn＝β₁L_cls+β₂(L_reg-θ+L_reg-other)+β₃L_dir

L_cls＝-α(1-y)^γlog(y)

L_reg-θ＝SmoothL1(sin(θ_pre-θ))

L_reg-other＝SmoothL1(sin(x_pre-x))

L_dir＝-α(1-dir)^γlog(dir)

其中，IoU是预测目标框和真实目标框的交并比，α_F、α_B分别表示前景、背景的交并比阈值，β₁、β₂、β₃表示权重，L_cls表示分类损失，α和γ为分类损失L_cls的超参数，SmoothL1表示回归损失函数，L_reg-θ表示角度损失，θ表示真实的角度值，L_reg-other表示目标框回归值损失，x为真实的目标框，L_dir是方向的分类损失。