CN111428765B

CN111428765B - 一种基于全局卷积、局部深度卷积融合的目标检测方法

Info

Publication number: CN111428765B
Application number: CN202010185321.9A
Authority: CN
Inventors: 高戈; 杜能; 余星源; 李明; 常军; 陈怡�
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2022-08-30
Anticipated expiration: 2040-03-17
Also published as: CN111428765A

Abstract

本发明公开了一种基于全局卷积、局部深度卷积融合的目标检测方法，改变原来的三维区域建议网络，提出一种基于非对称分割深度感知的ASD网络结构用于目标检测。通过这样做，可以更充分地提取特征图中每个层次和深度的特征。此外，还引入水平和垂直卷积融合网络以及蒸馏网络、角度优化算法等创新技术，进一步提高了检测效果。

Description

一种基于全局卷积、局部深度卷积融合的目标检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于全局卷积、局部深度卷积融合的目标检测方法。

背景技术

物体检测是计算机视觉中的经典问题之一，其任务是用框去标出图像中物体的位置，并给出物体的类别。从传统的人工设计特征加浅层分类器的框架，到基于深度学习的端到端的检测框架，物体检测一步步变得愈加成熟。物体检测对于人眼来说并不困难，但计算机面对的是RGB像素矩阵，很难从图像中直接得到狗和猫这样的抽象概念并定位其位置，再加上物体姿态、光照和复杂背景混杂在一起，使得物体检测更加困难。检测算法里面通常包含三个部分，第一个是检测窗口的选择，第二个是特征的设计，第三个是分类器的设计。

神经网络是一组大致模仿人类大脑构造设计的算法，用于识别模式。神经网络通过机器感知系统解释传感器数据，对原始输入进行标记或聚类。随着深度学习技术的不断完善与发展，基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用场景，但在诸如无人驾驶研究领域中，由于该应用中需要系统得到感兴趣目标的3D空间中的位置信息才能更好地实现相应的功能，提高系统的稳定性与安全性。为了提高3D图像检测的准确性，现有的3D图像检测方法依赖于昂贵的激光雷达传感器，其可以提供的稀疏深度数据，以作为输入。单目图像由于缺乏深度信息，相对于激光雷达传感器提供的稀疏深度数据在进行三维检测时要困难得多。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

现有技术中，单目3D检测工作都严重依赖于外部SOTA子网络，这些子网络分别负责点云生成，语义分割，2D检测，或者深度估计。2D和3D检测目标不能在一个统一的框架内，更谈不上利用2D检测的强大功能来指导和改进3D检测的性能。在这种情况下，用于目标检测的单目三维区域建议网络诞生了，它使2D和3D空间都利用共享的锚点和分类目标，但是用于目标检测的单目三维区域建议网络仍不能很好地提取深层次的特征，从而导致检测效果不佳。

由此可知，现有技术中的方法存在检测效果不佳的技术问题。

发明内容

本发明提出一种基于全局卷积、局部深度卷积融合的目标检测方法，用于解决或者至少部分解决现有技术中的方法存在的检测效果不佳的技术问题。

为了解决上述技术问题，本发明公开了一种基于全局卷积、局部深度卷积融合的目标检测方法，包括：

S1：构建基于全局卷积、局部深度卷积融合的目标检测网络，其中，目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络，主干网络用于对输入的图片进行特征提取，全局网络用于对主干网络处理后的图片进行全局特征抽取，深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取；

S2：设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式，采用RPN机制生成预测框，采用非极大值抑制方法删除不符合条件的框；

S3：对剩余的预测框进行调整，生成2D边界框、3D边界框以及在各个类别上的概率；

S4：基于分类损失、2D边界框回归损失和3D边界框回归损失，设置目标检测网络的损失函数；

S5：将3D边界框投影至2D边界框，并根据损失函数对目标检测网络的参数进行优化处理，得到优化后的目标检测网络；

S6：利用优化后的目标检测网络对待检测图片进行检测，得到检测的目标参数。

在一种实施方式中，S1中深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取的方式，包括横向非对称分割深度感知卷积、竖向非对称分割深度感知卷积以及针对多目标分支的卷积，其中，横向非对称分割深度感知卷积采用条带分割方法，竖向非对称分割深度感知卷积采用纵向切割的方法，针对多目标分支的卷积根据检测目标的数量采用不同的分支。

在一种实施方式中，当深度感知卷积区域建议网络的特征提取方式为多目标分支卷积时，采用将已有的大模型学习到的参数模型应用至深度感知卷积区域建议网络的训练，具体包括：

采用带有绝对标签的数据训练大模型，绝对标签为hard目标，表示已知的目标在各个分类上的概率分布，一个目标在所属类别上的概率为1，在其他类别上的概率为0，即非0即1；

利用训练好的大模型来计算相对标签：soft目标，其中，大模型经过温度系数T软化后，再经过softmax的输出为soft目标，soft目标表示已知的目标在各个分类上的概率分布，一个目标在所属类别上的概率大于在其他类别上的概率；

训练小模型，在小模型的基础上再加一个额外与soft目标对应的损失函数，将hard目标和soft目标分别代入小模型训练，得到的第一损失和第二损失，并通过lambda匿名函数来调节第一损失和第二损失的比重，得到训练好的小模型，作为训练好的网络。

在一种实施方式中，S2具体包括：

S2.1：设置2D目标的锚点模板：[w,h]2D、3D目标的锚点模板：[w,h,l,θ]3D,其中，w、h和l分别表示目标检测物体宽度、高度和长度，θ表示相机对目标检测物的观察视角角度；

S2.2：设置可视化锚点生成方式为公式(1)：

其中，2D共享空间的中心像素位置为[x,y]_P，2D共享空间的参数[w,h]_2D与像素坐标[x,y]_2D之间的关系为[x,y]_2D＝P·[w,h]_2D，P表示需要将目标物投影的已知投影矩阵，[x,y，z,1]_3D表示3D共享空间的参数或者坐标，Z_P表示预设深度信息，[x,y，z]_P表示3D共享空间的中心像素位置，即锚点的位置坐标；

S2.3：根据2D目标的锚点模板、3D目标的锚点模板、可视化锚点生成方式以及预先计算的3D先验信息，采用RPN机制生成预测框；每个锚点的输出包括C,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D，其中，C表示类别，[tx,ty,tw,th]2D表示2D预测框的参数，[tx,ty,tz]P,[tw,th,tl,tθ]3D表示3D预测框的参数；

S2.4：采用非极大值抑制方法删除不符合条件的框。

在一种实施方式中，S3包括

通过下述公式对2D预测框、3D预测框进行转换，得到生成2D边界框、3D边界框，

其中，x_P和y_P表示每个框的空间中心位置，

为相机坐标系下的参数，

表示2D预测框的参数，w_2D、h_2D表示2D预测框的宽度和高度，x′_2D、w′_2D、y′_2D和h′_2D为生成的2D边界框的参数，

为相机坐标系下的参数，

为3D预测框的参数，z_P为深度信息，w_3D、h_3D、l_3D、θ_3D为3D预测框的宽度、高度、长度和偏转角，x′_P、w′_3D、y′_P、h′_3D、z′_P、l′_3D和θ′_3D为生成的3D边界框的参数。

在一种实施方式中，S4包括：

S4.1：采用基于softmax的多项逻辑损失函数计算分类损失，公式为：

S4.2：引入2D框回归损失

用于匹配2D真实框

与2D边界框b′_2D之间的交并比：

S4.3：对3D框回归损失函数

分析，用于将3D边界框中的每项用smooth L1回归损失函数来优化，其公式为：

S4.4：对2D框回归损失函数和3D框回归损失函数进行加权，获得目标检测网络的损失函数：

其中，n_c表示类别的数量，C_i表示在第i类上的得分，exp为指数函数，C_τ表示当前类的得分，公式(4)的分母是表示第i到n_c类得分的指数结果之和，分子为当前类得分的指数结果，

为2D真实框,b′_2D是2D边界框，b_3D、

分别为3D边界框和3D真实框，L为目标检测网络的损失函数，λ₁和λ₂分别表示2D框回归损失函数和3D框回归损失函数的正则化权重。

在一种实施方式中，S5包括：

将3D投影至2D框的步骤的公式如下：

其中，φ表示轴[x,y,z]的索引，γ₀等式右边的l,h,w为3D边界框b′_3D中的l,h,w，θ为偏转角，P为相机坐标系投影矩阵，x,y,z为3D边界框b′_3D变换得到的坐标参数，利用3D框投影后的2D框参数[x_min,y_min,x_max,y_max]与2D边界框b′_2D计算损失，当θ±σ范围内损失没有更新时，则用衰减因子γ来改变步长σ，当σ＞β时反复执行上述操作，直到σ＜β。

在一种实施方式中，在步骤S1之后，所述方法还包括：对全局特征和局部特征提取的输出进行加权处理。

在一种实施方式中，采用标度-旋转-平移评分SRTs指标对2D框回归损失函数和3D框回归损失函数进行优化，将分数Ssrt定义为尺度Ss、旋转Sr和平移St三个独立分数的组成：

S_X,S_Y,S_Z表示在x,y,z方向的尺寸比例,θ表示不同的偏航角,t两个对象中心之间的欧式距离，P_t是处罚函数，S_t是根据两个对象的大小来计算，两个物体的对角线的长度d_i被用来计算两个半径r_i，i可取1,2，为调整分数，使用w_s,w_t和w_r，用于控制单个分数的严格程度，之前所有的分数都在区间[0,1]，用简单的加权平均和惩罚pt合并成最终分数S_srt；

S_srt＝p_t·(αS_s+βS_t+γS_r) (14)

其中，α+β+γ＝1。

在一种实施方式中，当检测目标包括三类目标时针对多目标分支的卷积根据检测目标的数量采用不同的分支，包括：采用三分支网络结构，其中，检测目标包括汽车car、行人pedestrian和骑自行车的人cyclist，3D框回归损失函中新增在各类目标上的损失函数，如下：

L＝L_car+L_pedestrian+L_cyclist+L_cls (15)

其中，L_carL_pedestrianL_cyclist分别是car在2D、3D回归框上损失，pedestrian在2D、3D回归框上损失以及cyclist三类在2D、3D回归框上损失，L_cls为总的分类上的损失，

L_car＝λ_car1L_car2d+λ_car2L_car3d (16)

L_pedestrian＝λ_pedestrian1L_pedestrian2d+λ_pedestrian2L_pedestrian3d (17)

L_cyclist＝λ_cyclist1L_cyclist2d+λ_cyclist2L_cyclist3d (18)

其中λ_i1、λ_i2，其中i为car、pedestrian、cyclist的定义如下：

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于全局卷积、局部深度卷积融合的目标检测方法，首先构建基于全局卷积、局部深度卷积融合的目标检测网络；接着设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式，采用RPN机制生成预测框，采用非极大值抑制方法删除不符合条件的框；接下来对剩余的预测框进行调整，生成2D边界框、3D边界框以及在各个类别上的概率；接着基于分类损失、2D边界框回归损失和3D边界框回归损失，设置目标检测网络的损失函数；再将3D边界框投影至2D边界框，并根据损失函数对目标检测网络的参数进行优化处理，得到优化后的目标检测网络；最后利用优化后的目标检测网络对待检测图片进行检测，得到检测的目标参数。

由于本发明提供的方法构建的目标检测网络包括深度感知卷积区域建议网络，通过全局网络对主干网络处理后的图片进行全局特征抽取，深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取可以更充分地提取特征图中每个层次和深度的特征，基于分类损失、2D边界框回归损失和3D边界框回归损失，设置目标检测网络的损失函数，对网络参数进行优化处理，从而可以提高网络的检测效果。

进一步地，设置了目标对象的2D和3D的锚点模板，结合了成像特性，对新的卷积层进行按照一定比例的横向条带分割，结果更准确，在横向条带分割在基础上延伸至竖向条带分割。

进一步地，当深度感知卷积区域建议网络采用多目标的分支形式进行特征提取时，采用知识蒸馏的方法对本发明的模型进行训练，将结构比较复杂的大模型学习到的参数模型运用在本发明的小模型中，从而减少在实验训练过程中消耗的时间和设备资源，同时达到不损失信息的效果。

进一步地，本发明采用新的计算损失的方法--SRTs算法，对2D框回归损失函数和3D框回归损失函数进行优化，使得3D目标检测方面更精准。

进一步地，修改网络损失函数，针对三类目标分别计算这三类在2D、3D框上的损失再结合分类损失再求和，利用损失函数更好的调整网络参数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于全局卷积、局部深度卷积融合的目标检测方法的实现流程示意图；

图2为本发明实施例中Densenet的网络架构图；

图3为本发明实施例中全局网络和深度感知卷积区域建议网络的结构示意图；

图4为本发明实施例中第一种局部特征提取示意图；

图5为本发明实施例中第二种局部特征提取示意图；

图6为本发明实施例中三类目标分支网络示意图

图7为本发明实施例中知识蒸馏模型示意图；

图8为本发明实施例中锚点模板的参数定义示意图。

具体实施方式

本发明的目的在于提供一种基于全局卷积、局部深度卷积融合的目标检测方法，从而更充分地提取特征图中每个层次和深度的特征，基于分类损失、2D边界框回归损失和3D边界框回归损失，设置目标检测网络的损失函数，对网络参数进行优化处理，从而可以提高网络的检测效果。

在本发明提供的技术方案中，改变了原来的三维区域建议网络，提出了一种基于非对称分割深度感知的ASD网络结构(深度感知卷积区域建议网络)用于目标检测。通过这种方式，可以更充分地提取特征图中每个层次和深度的特征。此外，本发明还引入了水平和垂直卷积融合网络以及蒸馏网络、角度优化算法等创新技术，进一步提高了检测效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于全局卷积、局部深度卷积融合的目标检测方法，请参见图1，该方法包括：

S1：构建基于全局卷积、局部深度卷积融合的目标检测网络，其中，目标检测网络包括主干网络、全局网络和深度感知卷积区域建议网络，主干网络用于对输入的图片进行特征提取，全局网络用于对主干网络处理后的图片进行全局特征抽取，深度感知卷积区域建议网络用于对主干网络处理后的图片进行局部特征抽取。

具体来说，在自主驾驶汽车视觉感知系统中3D目标视觉分析起着重要的作用。利用激光雷达和图像数据的三维空间中的物体检测来实现在道路场景中对物体进行高度精确的目标定位和识别。

在具体的实施过程中，输入图片的可以为分辨率为110*32的图像。本发明3D目标检测方法的主干网络是建立在DenseNet-121基础上进行的，其Densenet的网络架构具体可参见图2，DenseNet提出了一个更激进的密集连接机制：即互相连接所有的层，具体来说就是每个层都会接受其前面所有层作为其额外的输入。可以看到，在DenseNet中，每个层都会与前面所有层在channel维度上连接(concat)在一起(这里各个层的特征图大小是相同的，后面会有说明)，并作为下一层的输入。对于一个L层的网络，DenseNet共包含个L*(L+1)/2连接，是一种密集连接。而且DenseNet是直接concat来自不同层的特征图，这可以实现特征重用，提升效率。

本发明中用DenseNet(拥有较深层数的卷积神经网络)作为基础特征提取器，然后将该特征图分别送入两个分支，一个是全局特征抽取，一个是局部特征抽取，最后将两个分支的特征按照一定的权重进行结合。

S3：设置2D目标的锚点模板、3D目标的锚点模板以及可视化锚点生成方式，采用RPN机制生成预测框，采用非极大值抑制方法删除不符合条件的框。

具体来说，为了同时预测2D框和3D框，需要在各自维度空间定义锚点模板，锚点模板就是定义一个2D/3D框应该是怎样的，应该具备哪些参数。需要说明的是，此处的2D框为3D目标对象所观察到的最大长与宽。

RPN的全称是RegionProposalNetwork，“区域选取”，也就是“提取候选框或者预测框”的意思，所以RPN就是用来提取预测框的网络，通过RPN机制提候选框，还不用判断类别，所以只要求区分是不是物体就行，那么就有两个分数，前景(物体)的分数和背景的分数。计算出的分数后续用于计算损失函数，并不断回归更新权重参数。

S4：对剩余的预测框进行调整，生成2D边界框、3D边界框以及在各个类别上的概率。

具体来说，为进一步提高框的准确性，可以采用IOU机制和坐标转换公式进一步生成2D边界框、3D边界框以及目标在各个类别上的概率。

S5：基于分类损失、2D边界框回归损失和3D边界框回归损失，设置目标检测网络的损失函数。

S6：将3D边界框投影至2D边界框，并根据损失函数对目标检测网络的参数进行优化处理，得到优化后的目标检测网络。

S7：利用优化后的目标检测网络对待检测图片进行检测，得到检测的目标参数。

以深度感知卷积区域建议网络为例，首先进行局部特征提取得到特征图，最终输出的是13个参数。先有特征图，才能在其上面生成预测框，然后转换为边界框，进而得到一系列参数。

具体地，建立深度感知卷积区域建议网络，以提高区域建议网络中高阶特征空间感知的能力。全局网络和深度感知卷积区域建议网络(局部深度网络)如图3所示。

引入超参数b，其中b表示行级别的bin数量，用于表示将特征图沿横向分为b个，每个bin表示特定的卷积核k。

其中全局网络，采用常规的3x3和1x1卷积作用于整张特征图；而局部深度网络，采用不同的3x3核作用于不同的bin,这个bin见图3中横条，沿纵向将其划分了b个bin。

在具体的实施过程中，对于全局特征提取，本实施例采用常规的卷积，其卷积核在整个空间作用，即为全局卷积；其在卷积过程中引入全局特征F_global，该全局特征F_global中引入了一个padding(填充空隙)数量为1，且为3*3的卷积核，然后接着有Relu函数(RectifiedLinearUnit，线性整流函数)非线性激活，以生成512个特征图。然后在每个特征图F上连出13个输出(由前面可知，其13个输出分别为：C,θ,[t_x,t_y,t_w,t_h]_2D,[t_x,t_y,t_z]_P,[t_w,t_h,t_l,tθ]_3D)，且每个特征图再连接一个1*1的卷积核O_global。

对于局部特征提取，本实施例采用深度感知卷积(depth-awareconvolution)，即为局部卷积。其在卷积过程中引入全局特征F_local，该全局特征F_local中引入了一个padding(填充空隙)数量为1，且为3*3的卷积核，然后接着有Relu函数非线性激活，以生成512个特征图。然后在每个特征图F上连出13个输出(由前面、可知，其13个输出分别为：C,θ,[t_x,t_y,t_w,t_h]_2D,[t_x,t_y,t_z]_P,[t_w,t_h,t_l,tθ]_3D)，且每个特征图再连接一个1*1的卷积核O_local。

需要说明的是，对于局部特征提取这部分，具体的示例中采用了三种特征提取方法，具体请参见图4，为第一种特征提取方式，横向非对称分割深度感知卷积。

由于本发明的数据集是基于车辆上单目摄像头的具有深度的图片，所以图像中的目标对象会随地平线远近变化。这就类似于人眼看世界，看的越远的时候，所能覆盖的范围就窄，看的近的时候，则覆盖的范围就广一些。因此，对于地平线往上的目标，对象分辨率较小；对于地平线往下的目标，对象分辨率较大。将此基于对图像进行条带分割以达到不同分辨率目标采取不同卷积算子的想法，提取局部特征时，沿着纵向按不均匀但遵循一定规律分布的规则划分b个纵向的横条，以此，在卷积过程中，随地平线远近均匀变化设置相应的卷积算子，这样增加了更有针对性的提取大小目标，从而提高了识别率。

除此之外，为了更准确的识别3D目标图像，在仿照上述横向条带分割的基础上，本技术方案还提供了一种纵向分割的方法，竖向非对称分割深度感知卷积，具体划分方法参见图5。由于采用的纵向切割的方法，同时获得分辨率大和分辨率小的特征目标。使得信息更加完备，特征提取更加完全。

具体来说，由于网络结构基于KITTI数据集，主要检测对象包括以下三类car、pedestrian、cyclist。在上述改进的基础上，本技术方案又提出了一种针对这三类目标分别进行检测的网络结构。网络流程图6所示。

在具体的实施过程中，在考虑到上述网络结构最优化的情况下，为了对各类目标进行更好的分类检测，设计了该三分支的网络，不可避免的，该网络模型十分庞大，在实验训练过程中，也将消耗更多的时间和设备资源。因此，在现有基础上，本方案进一步提出了一个创新点：“知识蒸馏”机制。将结构比较复杂的大模型学习到的参数模型运用在我们的小模型中，且同时达到不损失信息的效果。

其中，已有的模型为大模型：也称作教师模型，模型结构更加复杂；小模型：也称作学生模型，模型结构更加简单。举例来说，可以采用含三层卷积层的教师模型提取特征学习得到的参数，来训练只有一层卷积层的学生模型。

hardtarget作为真实标签，在各类上表现为非0即1，太绝对化，因此训练好的大模型来计算softtarget，由于hardtarget包含的信息量(信息熵)很低，而类似于[0.6,0.2,0.1,0.1]的soft目标包含的信息量大，所以知识蒸馏机制致力于将hardtarget转化成softtarget。softtarget也就是大模型经过温度系数T软化后，再经过softmax的output输出。预测时，直接建立在已经训练好的小模型上，训练好的小模型即为训练好的网络(网络结构优化后的全局网络+深度感知区域建议网络)。

在一种实施方式中，S2具体包括：

S2.2：设置可视化锚点生成方式为公式(1)：

S2.4：采用非极大值抑制方法删除不符合条件的框。

具体来说，为了同时预测2D框和3D框，需要在各自维度空间定义锚点模板，需要说明的是，此处的2D框为3D目标对象所观察到的最大长与宽。具体的，以汽车为例，参见图8，其2D目标锚点和3D目标的锚点模板的具体公式分别为[w,h]2D和[w,h,l,θ]3D,其中w、h和l分别标书目标检测物体宽度、高度和长度，且其w、h和l为检测相机坐标系中给定值；另外，鉴于3D目标物不同于2D目标物，其具有旋转性，故其θ表示相机对目标检测物的观察视角角度，相当于相机绕着其相机坐标系的Y轴旋转，观察视角角度考虑的是物体相对于相机视角的相对方位，而不是地面的鸟瞰图(BEV)，此处引入θ在处理3D图像特征时，直观地估计视角更有意义。

如图8所示，为锚点模板的示意图。其中，为定义一个完整目标物的2D/3D框的位置，引入一个预设深度信息参数Z_P，并指定共享的中心像素位置[x,y]_P,其中2D表示的参数按照像素坐标表示，为[x,y]_2D＝P·[w,h]_2D。我们还可以利用已知的投影矩阵将摄像机坐标系中的三维中心位置投影到平面图像上，并对深度信息参数Z_P进行编码，为公式(1)的形式，可视化锚点生成公式也称为二维、三维中心位置坐标点转换公式，利用投影矩阵P，可以得到左边的深度信息Zp，进而得到[x,y,z]p.也就是锚点坐标。根据定义目标物体的锚点模板，可视化锚点生成公式和预先计算的3D先验生成预测框。

在一种实施方式中，S3包括

其中，x_P和y_P表示每个框的空间中心位置，

为相机坐标系下的参数，

为相机坐标系下的参数，

具体来说，每个像素点，设置每个像素的锚点数量为n_a,类别个数为n_c,h*w是特征图的分辨率。因此，输出预测框总数为n_box＝w×h×n_a，每个锚点分布在每个像素位置中[x,y]_P∈R^w×h，第一个输出c表示维度为n_a×n_c×h×w的共享分类预测，其中每个类的输出维度为n_a×h×w。

进一步的，[tx,ty,tw,th]2D表示2D边界框转换，具体的，其中边界框变换公式为公式(2)，其中xP和yP表示每个框的空间中心位置，变换后的2D边界框b′_2D定义为[x,y,w,h]′_2D,。将上述锚点的7个输出：投影中心[t_x,t_y,t_z」_P,尺度[t_w,t_h,t_l]_3D,以及方向

,统称为b_3D，经公式(3)变换后为b′_3D。类似于2D，转换应用于带参数[w,h]_2D,z_P,[w,h,l,θ]_3D的锚点：

同理，b′_3D表示[x,y,z]′_P和[w,h,l,θ]′_3D。如前所述，奔赴买哪个估计投影的3D中心而不是相机坐标，以更好地处理基于图像空间的卷积特征。在推理过程中，利用公式(1)的逆变换，由得到的在图像空间中投影后的3D中心位置[x,y,z]′_P来计算其相机坐标[x,y,z]′_3D。

根据生成的预测框，检查是否存在预测框与GT(ground truth,地面真实情况)的交并比(IOU)是否≥0.5。

若不存在，则将目标物的类别设置为背景类，并忽略(或删除)其边界框；

若存在，则根据生成的预测框的最佳匹配GT来定义一个目标的类别索引τ，真实2D框

和真实3D框

为了与b′_3D匹配，还使用式(1)来转换

以获得投影坐标。

在一种实施方式中，S4包括：

S4.2：引入2D框回归损失

用于匹配2D真实框

与2D边界框b′_2D之间的交并比：

S4.3：对3D框回归损失函数

为2D真实框,b′_2D是2D边界框，b_3D、

具体来说，分析目标物的网络损失函数，具体包括分类损失分析、2D回归框损失函数分析和3D框回归损失函数分析。

S_srt＝p_t·(αS_s+βS_t+γS_r) (14)

其中，α+β+γ＝1。

具体来说，本实施例的技术方案针对IOU进行了如下改进：

在网络训练过程中，采用的损失函数在一定程度上也会影响网络模型的性能针对以往的IOU损失，本技术方案提出了一种第四个创新点：新的计算损失的方法--SRTs算法，用来取代传统的IOU算法。在训练过程中，如果使用IoU来比较检测和地面真实。那么在比较旋转的边框时，它有以下一些缺点：

如果两个Bbox(汽车的Bbox均为矩形)比较具有相同的大小和位置,这两个Bbox之间的角度差别是π，那么IOU则为1,意味着它们完全匹配。显然不是这样的，因为两个方框之间的角度有最大的差异。因此，在训练一个网络时，预测这样的Bbox并不会受到惩罚，甚至会受到鼓励。这将导致对对象定向的错误预测。此外，计算一个准确的IoU旋转Bbox在三维空间是一个耗时的任务。

为了克服这两个问题，本发明引入了一个新的高度参数化的简单评估指标，称为标度-旋转-平移评分(SRTs)。Ssrt是基于这样一个事实，即给定两个具有相同形状的任意3D对象，其中一个可以使用转换成另一个。因此，我们可以将分数Ssrt定义为尺度Ss、旋转Sr和平移St三个独立分数的组成。S_srt与三个子任务(旋转、位置、大小)完美地结合在一起，这是一个网络为了预测具有偏航角度的3DBbox所必须做的。它被设计成可以参数化来近似IoU，但要考虑对象的方向。使用所有的参数可以调整分数以适应问题的需要。

L＝L_car+L_pedestrian+L_cyclist+L_cls (15)

L_car＝λ_car1L_car2d+λ_car2L_car3d (16)

L_pedestrian＝λ_pedestrian1L_pedestrian2d+λ_pedestrian2L_pedestrian3d (17)

L_cyclist＝λ_cyclist1L_cyclist2d+λ_cyclist2L_cyclist3d (18)

其中λ_i1、λ_i2，其中i为car、pedestrian、cyclist的定义如下：

具体来说，在提到的三分支网络结构的基础上，本技术方案针对损失函数这部分也做了改进：由原来的损失函数表达式(7)，新增了在各类目标上的损失函数，如下公式(16)

其中，L_carL_pedestrianL_cyclist分别是car、pedestrian、cyclist三类在2D、3D框上损失，L_cls为总的分类上的损失。

由前文三分支网络结构图可以知道，对car、pedestrian、cyclist三类创建独立的单个网络分支，将数据通路由原来的Global与Local两条更新为Global与Local_Car、Local_Pedestrian、Local_cyclist共计四条通路。其中每条Local与Global组合负责一种对象的识别与画框(这也意味着我们需要3个α值，每一个α值对应一个对象)。每条Local通路中的条带分布都不相同，每条通路只追求对一种对象的识别最优化，最后将3条路径结果整合之后再输出。有效做到针对三类目标，分别寻求最合适的网络结构进行检测识别并输出有效结果。

在一种实施方式中，S5包括：

将3D投影至2D框的步骤的公式如下：

具体来说，将2D和3D的边界框b′_2D,[x,y,z]′_P和[w,h,l,θ]′_3D，以及步长σ，程序while循环终止参数β，衰减系数γ(用来更新σ的)这些参数作为θ优化算法的输入。算法的迭代步骤是通过将3D框的投影和2D的估计框b′_2D作为L_1loss，并不断调整θ。且将3D投影至2D框的步骤的如公式(8)所示。

具体来说，对全局特征和局部特征提取的输出O_global ⁱ、O_local ⁱ进行加权处理。此处引入一个加权数α_i(该α_i为学习到的)，该参数利用了卷积神经网络的空间不变性的优点，以此作为第1到第13的输出的索引，其具体的输出函数如下：

Oⁱ＝O_global ⁱ·α_i+O_local ⁱ·(1-α_i)

(22)

将13个参数输出，此13个参数分别为：C,θ,[t_x,t_y,t_w,t_h]_2D,[t_x,t_y,t_z]_P,[t_w,t_h,t_l,tθ]_3D。

总体来说，本申请的技术方案的关键点包括以下几个方面：

1、同时构造了目标对象的2D和3D的锚点模板，结合了成像特性，对新的卷积层进行按照一定比例的横向条带分割，结果更准确。

2、在1的基础上延伸至竖向条带分割。

3、针对三类目标分别搭建不同的针对性网络，改造出更全面的网络结构。

4、优化网络模型，利用训练好的大模型的输出权重模型去训练网络结构更加简洁的小模型。

5、采用SRTs算法，取代原始的IOU算法，在针对3D目标检测方面更精准

6、修改网络损失函数，针对三类目标分别计算这三类在2D、3D框上的损失再结合分类损失再求和，利用损失函数更好的调整网络参数。

与最接近的现有技术相比，本申请的技术方案具有如下优点或者有益技术效果：

在现有的技术方案中，对于提取特征方面，深度卷积网络只能横向均匀的切割，没有考虑到图像中目标物体会随着相机采像视角的变化而分辨率不同，因此按照一定比例的横向条带分割，使得分类结果更加准确。

其次，新加入的竖向卷积(竖向非对称分割深度感知卷积)使得特征提取的更加丰富。

再者，从根本性的，针对三类目标直接涉及三条网络通道，更具有针对性和准确性。

除此以外，利用大模型训练小模型，不能降低小模型的网络复杂度，同时也能使得网络在迭代过程和模型训练更加迅速和集中。

当然，本方案提出摒弃以往的IOU算子，而是通过SRTs算法，这是因为SRTs算法可以考虑到3D图像中目标转向等多方面，使得信息更加丰富，同时解决了2D中无法解决的偏转角问题。

最后，在十分重要的损失函数上，考虑到三种目标的各自损失，并进行损失融合，使得学习率参数更加精确。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于全局卷积、局部深度卷积融合的目标检测方法，其特征在于，包括：

S6：利用优化后的目标检测网络对待检测图片进行检测，得到检测的目标参数；

其中，S1中全局网络采用全局卷积的方式进行全局特征提取，S1中深度感知卷积区域建议网络对主干网络处理后的图片进行局部特征抽取的方式，包括横向非对称分割深度感知卷积、竖向非对称分割深度感知卷积以及针对多目标分支的卷积，其中，横向非对称分割深度感知卷积采用条带分割方法，竖向非对称分割深度感知卷积采用纵向条带切割的方法，其中，竖向非对称分割深度感知卷积采用的纵向条带切割的方法能够同时获得分辨率大和分辨率小的特征目标；针对多目标分支的卷积根据检测目标的数量采用不同的分支；

当深度感知卷积区域建议网络的特征提取方式为多目标分支卷积时，采用将已有的大模型学习到的参数模型应用至深度感知卷积区域建议网络的训练，具体包括：

2.如权利要求1所述的方法，其特征在于，S2具体包括：

S2.2：设置可视化锚点生成方式为公式(1)：

S2.4：采用非极大值抑制方法删除不符合条件的框。

3.如权利要求1所述的方法，其特征在于，S3包括

其中，x_P和y_P表示每个框的空间中心位置，

为相机坐标系下的参数，

为相机坐标系下的参数，

4.如权利要求1所述的方法，其特征在于，S4包括：

S4.2：引入2D框回归损失

用于匹配2D真实框

与2D边界框

之间的交并比：

S4.3：对3D框回归损失函数

为2D真实框,b′_2D是2D边界框，b_3D、

5.如权利要求1所述的方法，其特征在于，S5包括：

将3D投影至2D框的步骤的公式如下：

其中，φ表示轴[x,y,z]的索引，γ₀等式右边的l,h,w为3D边界框b′_3D中的l,h,w，θ为偏转角，P为相机坐标系投影矩阵，x,y,z为3D边界框b′_3D变换得到的坐标参数，利用3D框投影后的2D框参数[x_min,y_min,x_max,y_max]与2D边界框b′_2D计算损失，当θ±σ范围内损失没有更新时，则用衰减因子γ来改变步长σ，当σ>β时反复执行上述操作，直到σ<β。

6.如权利要求1所述的方法，其特征在于，在步骤S1之后，所述方法还包括：对全局特征和局部特征提取的输出进行加权处理。

7.如权利要求4所述的方法，其特征在于，采用标度-旋转-平移评分SRTs指标对2D框回归损失函数和3D框回归损失函数进行优化，将分数Ssrt定义为尺度Ss、旋转Sr和平移St三个独立分数的组成：

其中，α+β+γ＝1。

8.如权利要求7所述的方法，其特征在于，当检测目标包括三类目标时针对多目标分支的卷积根据检测目标的数量采用不同的分支，包括：采用三分支网络结构，其中，检测目标包括汽车car、行人pedestrian和骑自行车的人cyclist，3D框回归损失函中新增在各类目标上的损失函数，如下：

L＝L_car+L_pedestrian+L_cyclist+L_cls (15)

L_car＝λ_car1L_car2d+λ_car2L_car3d (16)

L_pedestrian＝λ_pedestrian1L_pedestrian2d+λ_pedestrian2L_pedestrian3d (17)

L_cyclist＝λ_cyclist1L_cyclist2d+λ_cyclist2L_cyclist3d (18)

其中λ_i1、λ_i2，其中i为car、pedestrian、cyclist的定义如下：