CN115393601A

CN115393601A - 一种基于点云数据的三维目标检测方法

Info

Publication number: CN115393601A
Application number: CN202210544771.1A
Authority: CN
Inventors: 张辉; 车爱博; 刘立柱; 曹意宏; 缪志强; 钟杭; 毛建旭; 王耀南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-11-25

Abstract

本发明公开了一种基于点云数据的三维目标检测方法，其主要由稀疏卷积模块提取三维点云的稀疏特征，再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征，通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融合后的特征进行特征预测，最后通过多任务检测头预测模块输出最终的检测框。本方法提出的基于注意力机制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升，大大提高了目标检测的准确性。

Description

一种基于点云数据的三维目标检测方法

技术领域

本发明属于目标检测领域，特别是涉及一种基于点云数据的三维目标检测方法。

背景技术

目标检测，作为计算机视觉的基础任务之一，其主要目的是在点云或图像序列中精确得出各种目标的类别和位置信息。目前，基于图像的二维目标检测工作已经取得了显著进展，但由于二维目标检测对复杂场景的描述度不够，缺乏目标尺寸、姿态等物理参数信息，在实际应用中受到一定限制，基于深度学习的三维目标检测方法具有智能分析、自主检测及泛化能力强等特点，已逐渐应用于智能安防、自动驾驶和医疗等诸多领域。

激光雷达传感器作为感知工具进行环境感知，将得到的点云数据进行处理即可获得大量有用信息如周围物体的三维位置、姿态、结构等。然而目前的三维目标检测方法依然存在下面三个问题：(1)回归检测物体位置时必须同时考虑低层空间特征和高层抽象语义特征，然而提取特征映射中的高级抽象语义往往通过堆叠的卷积层而导致低级空间信息的质量下降，不能有效地获得具有丰富空间信息的鲁棒特征；(2)初始的特征融合不能让模型得到充分表达，甚至会严重影响最终特征融合的权重，以致检测精度无法提升；(3)对点云数据进行训练时，训练中会遇到主要问题是Ground-Truth太少，这大大限制了网络的收敛速度和最终性能。传统的三维目标检测方法检测精度低。

发明内容

针对以上技术问题，本发明提供一种基于点云数据的三维目标检测方法。

本发明解决其技术问题采用的技术方案是：

一种基于点云数据的三维目标检测方法，方法包括以下步骤：

步骤S100：获取数据集，对数据集进行预处理，将预处理后的数据集按照预设划分比例划分为训练集和测试集；

步骤S200：构建三维检测网络模型，三维检测网络模型包括依次连接的稀疏卷积模块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块；

步骤S300：将训练集输入至三维检测网络模型，稀疏卷积模块用于提取训练集的图片中的三维点云的稀疏特征，空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征，基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合并将融合后的特征输入多任务检测头预测模块进行目标预测得到目标预测结果，根据训练集的图片、目标预测结果和预测的损失函数对三维检测网络模型进行反向传播更新模型的网络参数，得到训练好的三维检测网络模型；

步骤S400：将测试集中的图片输入至训练好的三维检测网络模型，得到三维目标检测结果。

优选地，步骤S200中的稀疏卷积模块包括4部分，每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层，这四部分分别具有2层、2层、3层、3层SSC 卷积层，在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层，最后将稀疏的体素特征转化为密集的特征映射，并将z轴中的特征连接，生成BEV特征映射作为下一模块的输入，步骤S300中稀疏卷积模块用于提取训练集的图片中的三维点云的稀疏特征，包括：

步骤S310：定义稀疏卷积符号为SC(m,n,f,s)：稀疏卷积在处理d维数据时候的感受野是f^d，输入一个A₁×A₂×…×A_m×m的张量T_in，经过稀疏卷积后，输出一个B₁× B₂×…×B_d×n的张量T_out，A_i和B_i满足一个约束条件：B_i＝(A_i-f+s)/s,i＝1,2,…,d；

步骤S320：为维护正常卷积操作，进行空值补零：若计算T_in中的一个元素t_in＝ T_in(a₁,a₂,…,a_d,m₀)的稀疏卷积值，提取t_in为中心在f^d空间内的所有值和f^d大小的核做点乘，利用稀疏卷积将稀疏的张量T_in中把目标位置t_in所在的f^d空间内所有的空洞位置补充为零，补零后再按照普通卷积计算；

步骤S330：通过子流形卷积操作进行强制清零以维护特征稀疏性，提取得到稀疏特征：为了使输出的尺寸和输入的尺寸一致，在输入张量T_in上做零值补充，在d维中的每一维前和后补充(f-1)/2个零，其中，f是奇数，(f-1)/2为整数，则B_i＝A_i+2× (f-1)/2-f+1＝A_i，稀疏卷积输出的张量尺寸和输入张量是一样的，记T_in中零值区域为D_zero，在T_out中把D_zero区域的值重写为零，最后提取得到稀疏特征。

优选地，步骤S300中空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征，包括：

步骤S340：空间语义特征提取模块包含两组卷积层，分别为空间卷积组和语义卷积组，空间卷积组用于从稀疏特征中提取空间特征并保持空间特征的尺寸与输入相同，语义卷积组用于通过将空间特征作为输入，使层数增加一倍，空间大小减半，以获得更高层次的抽象语义信息；

步骤S350：采用第一二维反卷积层恢复语义特征的维度，使语义特征的维度与空间特征相同，按元素顺序添加空间特征，采用第二二维反卷积层产生上采样的语义特征，将上采样的语义特征作为最终提取到的语义特征。

优选地，步骤S340中的空间卷积组和语义卷积组包括三个堆叠的卷积层，空间卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为128，语义卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为256，在空间卷积组和语义卷积组之后均包括一个 1x1的卷积层，空间卷积组之后的卷积层的层数为128层，语义卷积组之后的卷积层的层数为256层，第一二维反卷积层和第二二维反卷积层包括3×3的卷积核和128层步长为2的输出层。

优选地，步骤S300中基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合得到融合后的特征，包括：

步骤S360：对空间特征和语义特征使用尺度不同的两个分支来提取通道注意力权重，其中一个分支使用全局平均池化来提取全局特征的通道注意力得到全局通道信息，另一个分支使用point-wise卷积提取局部特征的通道注意力得到局部通道信息；

步骤S370：将计算得到的局部通道信息和全局通道信息进行融合，输出一个权重值用来对输入特征做注意力操作后得到输出；

步骤S380：将空间特征和语义特征在基于多尺度通道注意力模块的基础上进行注意力特征融合得到融合后的特征。

优选地，局部通道信息计算具体为:

L(X)＝B(PWConv₂(δ(B(PWConv₁(X)))))

其中，PWConv₁为通过1×1卷积将输入的空间特征X通道数减少为原先的

B表示BatchNorm层，δ表示ReLU激活函数，PWConv₂是通过1×1的卷积将通道数目恢复成与原输入通道数目相同，局部通道信息L(X)。

优选地，步骤S370具体为：

其中，X'为注意力操作，

表示广播加法操作，X为空间特征，g(X)为全局通道信息，L(X)为局部通道信息，

表示两个特征图对应元素相乘，

表示的是多尺度通道注意力模块操作。

优选地，步骤S380具体为：

其中，Z∈R^C×H×W是语义特征和空间特征融合后的输出特征，+表示初始特征的简单集成，融合权重M(X+Y)由0到1之间的实数组成，融合权重1-M(X+Y)由0到1 之间的实数组成，X为空间特征，Y为语义特征。

优选地，多任务检测头预测模块包括有bounding box的正负性分类、boundingbox 的IoU回归、bounding box自身的回归，以及bounding box方向的分类。

优选地，预设的损失函数，具体为：

L＝L_cls+ωL_box+μL_dir+λL_iou

其中，ω＝2.0，μ＝0.2，λ＝1.0，L_iou为IoU预测损失，L_box为边界框回归损失，L_cls是分类损失，L_dir是方向分类损失，L为总损失。

上述一种基于点云数据的三维目标检测方法，其主要由稀疏卷积模块提取三维点云的稀疏特征，再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征，通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融合后的特征进行特征预测，最后通过多任务检测头预测模块输出最终的检测框。本方法提出的基于注意力机制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升，大大提高了目标检测的准确性。

附图说明

图1为本发明的一种基于点云数据的三维目标检测方法的流程图；

图2为本发明的一种基于点云数据的三维目标检测方法的一较佳实施例的整体网络结构的示意图；

图3为图2所示的整体网络结构的空间语义特征融合模块的示意图；

图4为图3所示的整体网络结构的基于注意力机制的多尺度特征融合模块的示意图；

图5为本发明的一种基于点云数据的三维目标检测方法的与其它先进结果P-R曲线比较的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

本发明针对现有的问题，提出一种基于点云数据的三维目标检测方法，一种基于点云数据的三维目标检测方法，其主要由稀疏卷积模块提取三维点云的稀疏特征，再由空间语义特征提取模块分别提取检测对象的空间特征和语义特征，通过基于注意力机制的多尺度特征融合模块对空间特征和语义特征进行融合进而输出融合后的特征进行特征预测，最后通过多任务检测头预测模块输出最终的检测框。本方法提出的基于注意力机制的双特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升。同时本发明还运用了不同于以往方法的数据增强方法增强了模型的泛化性能，最终将检测精度提高到优异的检测水平，与现有的先进三维目标检测方法相比，本发明在KITTI数据上面的检测精度不分伯仲。

为了达到上述目的，本发明提供一种基于点云数据的三维目标检测方法，如图1所示，方法包括以下步骤：

步骤S100：获取数据集，对数据集进行预处理，将预处理后的数据集按照预设划分比例划分为训练集和测试集。

具体地，在数据集上进行实验验证：在KITTI 3D数据集上进行方法验证并评估，KITTI 3D数据集是自动驾驶领域三维物体检测的经典数据集，数据集包含7,481个训练样本和7,518个测试样本。在此基础上，将训练数据进一步划分为3712个样本的训练集和3769个样本的验证集。

实验验证前的数据处理为四种类型的数据增强，第一种类型是对整个点云的全局增强，包括随机旋转、缩放和翻转。第二种类型是在地面真实物体周围点云的一部分上的局部增强，包括随机旋转和平移。第三种类型为首先从训练数据集中生成一个数据库，包含所有GT的标签及其相关的点云数据(GT的3D包围框内的点)，然后在训练过程中，从这个数据库中随机选取几个ground truth，通过拼接的方式引入到当前的训练点云中。使用这种方法可以大大增加每个点云的GT的数量，并模拟存在于不同环境中的物体。第四种类型为将难度等级不归属于容易、中等和困难的对象过滤掉，并将相似类别的对象作为目标，如van代替car，以缓解训练时的模型混淆。

步骤S200：构建三维检测网络模型，三维检测网络模型包括依次连接的稀疏卷积模块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块。

具体地，三维检测网络模型的示意图如图2所示。

步骤S300：将训练集输入至三维检测网络模型，稀疏卷积模块用于提取训练集的图片中的三维点云的稀疏特征，空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征，基于注意力机制的多尺度特征融合模块进行空间特征和语义特征融合并将融合后的特征输入多任务检测头预测模块进行目标预测得到目标预测结果，根据训练集的图片、目标预测结果和预测的损失函数对三维检测网络模型进行反向传播更新模型的网络参数，得到训练好的三维检测网络模型。

在一个实施例中，稀疏卷积模块包括4部分，每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层，这四部分分别具有2层、2层、3层、3层SSC卷积层，在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层，最后将稀疏的体素特征转化为密集的特征映射，并将z轴中的特征连接，生成BEV特征映射作为下一模块的输入，步骤S300中稀疏卷积模块用于提取训练集的图片中的三维点云的稀疏特征，包括：

步骤S330：通过子流形卷积操作进行强制清零以维护特征稀疏性，提取得到稀疏特征：为了使输出的尺寸和输入的尺寸一致，在输入张量T_in上做零值补充，在d维中的每一维前和后补充(f-1)/2个零，其中，f是奇数，(f-1)/2为整数，则B_i＝A_i+2×(f-1)/2-f+1＝A_i，稀疏卷积输出的张量尺寸和输入张量是一样的，记T_in中零值区域为D_zero，在T_out中把D_zero区域的值重写为零，最后提取得到稀疏特征。

在一个实施例中，步骤S300中空间语义特征提取模块用于从稀疏特征中提取空间特征和语义特征，包括：

在一个实施例中，步骤S340中的空间卷积组和语义卷积组包括三个堆叠的卷积层，空间卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为128，语义卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为256，在空间卷积组和语义卷积组之后均包括一个1x1的卷积层，空间卷积组之后的卷积层的层数为128层，语义卷积组之后的卷积层的层数为256层，第一二维反卷积层和第二二维反卷积层包括3×3的卷积核和128 层步长为2的输出层。

在一个实施例中，如图3、图4所示，步骤S300中所述基于注意力机制的多尺度特征融合模块进行所述空间特征和所述语义特征融合得到融合后的特征，包括：

步骤S360：对所述空间特征和所述语义特征使用尺度不同的两个分支来提取通道注意力权重，其中一个分支使用全局平均池化来提取全局特征的通道注意力得到全局通道信息，另一个分支使用point-wise卷积提取局部特征的通道注意力得到局部通道信息；

步骤S370：将计算得到的所述局部通道信息和所述全局通道信息进行融合，输出一个权重值用来对输入特征做注意力操作后得到输出；

步骤S380：将所述空间特征和所述语义特征在基于多尺度通道注意力模块的基础上进行注意力特征融合得到融合后的特征。

具体地，每个分支选择使用的卷积是1×1卷积或称之为Point-Wise卷积(PWConv)作为局部通道信息整合器，利用不同通道的对应像素点做信息交互。在计算局部通道信息时使用了一个瓶颈结构。

在一个实施例中，所述局部通道信息计算具体为:

L(X)＝B(PWConv₂(δ(B(PWConv₁(X)))))

B表示BatchNorm层，δ表示ReLU激活函数，PWConv₂是通过1×1的卷积将通道数目恢复成与原输入通道数目相同，L(X)为局部通道信息。

具体地，局部通道信息L(X)的形状和输入X的形状保持一致。

在一个实施例中，步骤S370具体为：

其中，X'为注意力操作，

表示两个特征图对应元素相乘，

表示的是多尺度通道注意力模块操作。

在一个实施例中，步骤S380具体为：

在一个实施例中，多任务检测头预测模块包括有bounding box的正负性分类、boundingbox的IoU回归、boundingbox自身的回归，以及boundingbox方向的分类。

在一个实施例中，预设的损失函数，具体为：

L＝L_cls+ωL_box+μL_dir+λL_iou

进行方法验证并评估中的评估方法有Precision-Recall曲线定性分析模型精度，使用 average precision(AP)平均精度定量分析模型精度；对于物体方向检测，采用Average Orientation Similarity(AOS)平均方向相似度来衡量检测结果与Ground truth的方向相似程度。

进一步地，评估指标一共四种，AP_bbox-2D检测框的准确率，AP_bev-BEV视图下检测框的准确率，AP_3d-3D检测框的准确率，AP_aos-检测目标旋转角度的准确率。

进一步地，为了评估边界框定位的准确性，使用检测框与ground truth框之间的重合度来衡量网络预测的3D框和对应真值3D框之间的差异，如下式：

式中pre表示预测结果，gt表示真实样本，s为框的面积，IoU阈值设为0.7。

进一步地，物体检测任务采用PR曲线和AP值评估模型精度，给定不同阈值t，得到不同的召回率和精确率，从而可以绘制P-R曲线，精确度(P)是真实正样本(TP) 的数量除以真实正样本和错误正样本(FP)数量的和。召回率(R)是真实正样本(TP) 的数量除以真实正样本(TP)和错误负样本(FN)数量的和。计算公式如下，

式中TP是IOU大于等于阈值的正确预测，即预测为真实框且与真实框的IOU大于等于预设阈值的个数，FP是IOU小于阈值的错误预测，即预测为真实框但是与真实样本的IOU小于预设阈值的个数。FN是未被检测出的车辆框的个数。

进一步地，评价精确率AP是P-R曲线的积分值，当t是离散的情况时，AP就是不同t的召回率对应的精确率的平均值。如下式，

式中仅仅评估目标高度大于25pixel的预测结果，将易混淆的类别视为同一类以减少假阳性率，并且使用41个等间距recall上的精确值的平均值近似计算分类器的AP。

进一步地，对于物体方向预测，使用平均方向相似性，Average OrientationSimilarity (AOS)。该指标被定义为：

式中r代表物体检测的召回率recall。在因变量r下，方向相似性s∈[0,1]被定义为所有预测样本与ground truth余弦距离的归一化：

其中D(r)表示在召回率r下所有预测为正样本的集合，

表示检出物体i的预测角度与ground truth的差。如果检出i已经匹配到ground truth(IoU至少50％)设置δ_i＝1，否则δ_i＝0。

表1网络性能对比

进一步地，不同方法在KITTI三维目标检测测试集上的评价结果如表1所示，对于每种方法，绘制了P-R曲线，并标注了中等检测难度的AP值，本发明方法如虚线所示。如图5所示为本发明的一种基于点云数据的三维目标检测方法的与其它先进结果P-R曲线比较的示意图，在不同的查全率设置下，本发明的方法优于先进的方法，说明本发明的方法获得了更好的检测覆盖率和准确率。

在KITTI 3D数据集上进行方法验证并评估中的实验验证，首先对对于KITTI数据集，X轴检测范围为[0,70.4]m,Y轴检测范围为[-40,40]m,Z轴检测范围为[-3,1]m，每个轴用体素大小(0.05m,0.05m,0.1m)的网格进行体素化。

进一步地，KITTI 3D数据集中检测目标使用固定尺寸的锚框，锚框是基于KITTI训练集中所有GT(ground truth)的尺寸和中心位置的平均值，旋转0度和90度。对于汽车，使用一个尺寸为ω＝1.56m，中心在z＝-1.0m的锚框。

进一步地，实验验证使用的是带有余弦退火学习率的ADAM优化器在单个GPU卡上以4个批次的规模训练本文的模型，训练步长为60。

本发明能够取得下列有益效果：本发明所设计的三维检测网络模型可用于基于点云数据的三维检测，将此网络模型应用于自动驾驶系统中，可大幅提升目标检测准确率，对于实现安全自动驾驶尤为重要，并且提供车辆在三维世界中的位置、大小和朝向等信息，本发明提出的基于注意力机制的多尺度特征融合模块对于解决遮挡程度高检测难度大的目标具有明显的检测精度方面的提升，同时本发明还运用了不同于以往方法的数据增强方法增强了模型的泛化性能，本发明在公共数据集KITTI数据集上面的测试集中汽车检测方面得到了中等检测难度AP值为83.77％的检测结果，属于检测效果较为优异的三维目标检测方法。

以上对本发明所提供的一种基于点云数据的三维目标检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于点云数据的三维目标检测方法，其特征在于，所述方法包括以下步骤：

步骤S100：获取数据集，对所述数据集进行预处理，将预处理后的数据集按照预设划分比例划分为训练集和测试集；

步骤S200：构建三维检测网络模型，所述三维检测网络模型包括依次连接的稀疏卷积模块、空间语义特征提取模块、基于注意力机制的多尺度特征融合模块和多任务检测头预测模块；

步骤S300：将所述训练集输入至所述三维检测网络模型，所述稀疏卷积模块用于提取所述训练集的图片中的三维点云的稀疏特征，所述空间语义特征提取模块用于从所述稀疏特征中提取空间特征和语义特征，所述基于注意力机制的多尺度特征融合模块进行所述空间特征和所述语义特征融合并将融合后的特征输入所述多任务检测头预测模块进行目标预测得到目标预测结果，根据所述训练集的图片、所述目标预测结果和预测的损失函数对所述三维检测网络模型进行反向传播更新所述模型的网络参数，得到训练好的三维检测网络模型；

步骤S400：将所述测试集中的图片输入至所述训练好的三维检测网络模型，得到三维目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述稀疏卷积模块包括4部分，每一部分包括若干个子流形稀疏卷积(SSC)层和一个稀疏卷积(SC)层，这四部分分别具有2层、2层、3层、3层SSC卷积层，在每一部分子流形稀疏卷积(SSC)层的末尾附加一个稀疏卷积(SC)层，最后将稀疏的体素特征转化为密集的特征映射，并将z轴中的特征连接，生成BEV特征映射作为下一模块的输入，步骤S300中所述稀疏卷积模块用于提取所述训练集的图片中的三维点云的稀疏特征，包括：

步骤S310：定义稀疏卷积符号为SC(m,n,f,s)：稀疏卷积在处理d维数据时候的感受野是f^d，输入一个A₁×A₂×…×A_m×m的张量T_in，经过稀疏卷积后，输出一个B₁×B₂×…×B_d×n的张量T_out，A_i和B_i满足一个约束条件：B_i＝(A_i-f+s)/s,i＝1,2,…,d；

步骤S320：为维护正常卷积操作，进行空值补零：若计算T_in中的一个元素t_in＝T_in(a₁,a₂,…,a_d,m₀)的稀疏卷积值，提取t_in为中心在f^d空间内的所有值和f^d大小的核做点乘，利用稀疏卷积将稀疏的张量T_in中把目标位置t_in所在的f^d空间内所有的空洞位置补充为零，补零后再按照普通卷积计算；

3.根据权利要求2所述的方法，其特征在于，步骤S300中所述空间语义特征提取模块用于从所述稀疏特征中提取空间特征和语义特征，包括：

步骤S340：所述空间语义特征提取模块包含两组卷积层，分别为空间卷积组和语义卷积组，所述空间卷积组用于从所述稀疏特征中提取空间特征并保持所述空间特征的尺寸与输入相同，所述语义卷积组用于通过将所述空间特征作为输入，使层数增加一倍，空间大小减半，以获得更高层次的抽象语义信息；

步骤S350：采用第一二维反卷积层恢复所述语义特征的维度，使所述语义特征的维度与所述空间特征相同，按元素顺序添加所述空间特征，采用第二二维反卷积层产生上采样的语义特征，将所述上采样的语义特征作为最终提取到的语义特征。

4.根据权利要求3所述的方法，其特征在于，步骤S340中的所述空间卷积组和所述语义卷积组包括三个堆叠的卷积层，所述空间卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为128，所述语义卷积组的三个堆叠的卷积层的卷积核大小为3×3，层数为256，在所述空间卷积组和所述语义卷积组之后均包括一个1x1的卷积层，所述空间卷积组之后的卷积层的层数为128层，所述语义卷积组之后的卷积层的层数为256层，所述第一二维反卷积层和所述第二二维反卷积层包括3×3的卷积核和128层步长为2的输出层。

5.根据权利要求4所述的方法，其特征在于，步骤S300中所述基于注意力机制的多尺度特征融合模块进行所述空间特征和所述语义特征融合得到融合后的特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述局部通道信息计算具体为:

L(X)＝B(PWConv₂(δ(B(PWConv₁(X)))))

7.根据权利要求6所述的方法，其特征在于，步骤S370具体为：

其中，X'为注意力操作，

表示两个特征图对应元素相乘，

表示的是多尺度通道注意力模块操作。

8.根据权利要求7所述的方法，其特征在于，步骤S380具体为：

其中，Z∈R^C×H×W是语义特征和空间特征融合后的输出特征，+表示初始特征的简单集成，融合权重M(X+Y)由0到1之间的实数组成，融合权重1-M(X+Y)由0到1之间的实数组成，X为空间特征，Y为语义特征。

9.根据权利要求8所述的方法，其特征在于，所述多任务检测头预测模块包括有bounding box的正负性分类、bounding box的IoU回归、bounding box自身的回归，以及boundingbox方向的分类。

10.根据权利要求9所述的方法，其特征在于，预设的损失函数，具体为：

L＝L_cls+ωL_box+μL_dir+λL_iou