CN111563415A

CN111563415A - 一种基于双目视觉的三维目标检测系统及方法

Info

Publication number: CN111563415A
Application number: CN202010268413.3A
Authority: CN
Inventors: 李巍华; 王子杨
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-21
Anticipated expiration: 2040-04-08
Also published as: CN111563415B

Abstract

本发明公开了一种基于双目视觉的三维目标检测系统及方法，包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块，其中，特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图，二维目标检测模块用于通过左特征图和右特征图预测二维目标框，三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标，目标深度值计算模块用于计算目标深度，然后根据投影矩阵恢复目标真实的三维目标框。本发明解决了现有方法检测准确率低的问题，有较好的识别精度和速度。

Description

一种基于双目视觉的三维目标检测系统及方法

技术领域

本发明属于图像处理和自动驾驶领域的技术，具体涉及一种基于双目视觉的三维目标检测方法。

背景技术

在无人驾驶、机器人、增强现实等应用场景下，二维目标检测并不能提供感知环境所需要的全部信息，二维目标检测检测仅能提供目标在二维图片中的位置和对应类别的置信度，但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标的空间坐标、物理尺寸以及偏转角等信息。例如在自动驾驶场景下，需要提供目标相对位置、物理尺寸及旋转角度等指标，从而帮助计算机确定自身和周围物体的位置关系，做出正确的运动交互和路径规划。

目前三维目标检测技术因应用场景丰富已成为研究热点，现有的方法主要分为三类：单目视觉、双目视觉以及激光点云算法。激光雷达扫描的点云数据可以直接得到深度信息，但由于激光雷达价格昂贵且环境适应性差，还不能大规模落地。相比于使用激光雷达系统，使用摄像机系统成本更低，但是需要进行图像点的反投影，计算点在空间中的位置。单目视觉由于图像投影过程中几何信息的丢失，定位三维目标显得十分困难，需要更多的假设条件或者先验信息来解决。双目视觉通过同步标定左右相机并采集左右图像，计算图像间的视差，来估计每一个像素的深度。现有的一些双目视觉的三维目标检测方法，如Xu等提出的Multi-Fusion三维目标检测算法主要使用独立的深度估计网络分支得到深度，计算费时且网络训练过程中需要真实的深度图信息，泛化能力较差(B.Xu and Z.Chen.Multi-level fusion based 3d object detection from monocular images.In IEEE CVPR,2018.)。Qin等基于双目几何模型提出了TLNet，其首先将左右视图分别提取特征，然后利用三维卷积进行三维目标框的直接回归，相比于将深度图作为附加输入的检测算法来说精度有所提高，但大量的三维卷积却带来了大量额外的计算量。

发明内容

为解决现有技术存在的上述问题，本发明提出一种基于双目视觉的三维目标检测系统及方法，通过准确检测出目标在左右视图中的中心投影点，然后通过中心投影点间的视差计算出目标深度值。与此同时，检测出目标的类别、物理尺寸以及朝向角。最终通过投影矩阵恢复出目标的真实三维目标框。本方法不需要额外的深度图信息且不涉及三维卷积，仅利用几何信息计算目标深度值，极大地减少了网络的计算量，提高了运行速度以及精度。

为了达到上述目的，本发明提供一种基于双目视觉的三维目标检测系统，包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块，其中，特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图，二维目标检测模块用于通过左特征图和右特征图预测二维目标框，三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标，目标深度值计算模块用于计算目标深度，然后根据投影矩阵恢复目标真实的三维目标框。

本发明还提供了一种基于双目视觉的三维目标检测方法，包括：

将目标的左视图和右视图输入特征提取模块中，分别得到左特征图和右特征图，左特征图和右特征图通过通道叠加得到总特征图，

将总特征图输入到二维目标检测模块预测二维目标框，

三维目标检测模块根据二维目标框对目标的类别、角度、物理尺寸进行预测，并通过双目注意力机制对目标的投影中心点进行预测，

目标深度值计算模块计算目标深度，并根据投影矩阵恢复目标真实的三维目标框。

进一步地，将左视图和右视图输入特征提取模块前，先对所述三维目标检测方法进行训练，具体包括：

采用KITTI数据集进行训练，数据集中包含目标的左视图、右视图以及对于图像中目标的标注信息，

在获取目标中心投影点的真实坐标(X,Y,Z)时，由于数据集中目标空间坐标为目标底部中心坐标，所以目标中心坐标的Y需要减去目标高度的一半，然后通过投影矩阵P投影至左右视图像素坐标系中，得到目标的中心投影坐标(U_L,V_L，U_R)，其中U、V分别代表在像素坐标系的横坐标、纵坐标，L、R分别代表左视图、右视图，由于左右相机已经经过水平校准，所以V_L＝V_R，V_R为目标位于右视图中的纵坐标。

其中f_x，f_y为焦距；c_x，c_y为光心坐标；b为基线距离；X,Y,Z代表目标在左相机坐标系下的空间坐标。

进一步地，特征提取模块采用ResNet+FPN的网络架构，对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作，使得上采样后的特征图具有与上一层特征图相同的大小，接着将上采样的结果和自下而上生成的特征图进行融合，得到一个新的特征图。为了提高目标检测精度特别是小目标的检测精度，本方法中特征提取模块采用了ResNet+FPN的网络架构。

进一步地，二维目标检测模块包括区域推荐网络，首先在特征图各个像素位置上预先设置不同尺寸大小的目标框，称为先验目标框，设置的长宽比例有0.5，1，2三种，先验目标框面积有32²，64²，128²，256²，512²共五种；其次，二维目标检测模块通过卷积层操作预测各个先验目标框的前景概率fg以及先验目标框对于真实目标框的偏差回归[du_l,dv,dw_l,dh,du_r,dw_r]，其中u、v表示图像中二维目标框的中心坐标，w、h表示二维目标框的宽度和高度，下标l、r代表左视图或者右视图，基于左右视图已经进行水平校正处理，所以左右视图同一目标的dv和dh是一样的，对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框，选择前2000个进行训练，选择前300个进行测试，真实目标框是指数据集中目标在图像中的真实坐标以宽高，推荐目标框是指先验目标框通过偏差回归计算得到的目标框，

所述真实目标框的偏差回归是按以下方式计算所得：

其中，G表示真实目标框，P表示先验目标框。

进一步地，三维目标检测模块进行预测前，先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测，另一分支将尺寸归一化为28x28用于目标的投影中心点的预测。

进一步地，三维目标检测模块包括类别、角度、物理尺寸和投影中心点四个预测分支，类别、角度、物理尺寸预测分支分别具有自己的预测网络，首先进行全局卷积将特征处理成[1,1,2048]形状，然后通过节点数为1024的全连接层，最后分别得到输出结果，

对于投影中心点的预测，将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值，预测结果为目标二维框中心坐标与目标投影中心点之间的偏差，投影中心点的的预测分支将尺寸为28x28的左右视图融合特征图作为输入，经过双目注意力机制学习左右视图特征,最终输出节点数为类别个数n*3,包括[dU_L,dV_L,dU_R]，

所述投影中心点的偏差回归是按以下方式计算所得：

其中，U_L、V_L、U_R为真实投影中心点坐标，C_UL、C_VL、C_UR为二维目标框中心坐标，C_w、C_h为二维目标框宽高，

上式中，二维目标框中心坐标需要通过二维目标检测模块中预测的坐标偏差计算得出：

C_uL＝P_w*du_r+P_u,C_uR＝P_w*du_r+P_u,C_VL＝P_h*dv_r+P_v

C_w＝P_w*e^dw,C_h=P_h*e^dh。

进一步地，所述经过双目注意力机制学习左右视图特征，具体包括：将右相机特征图M_r转置后与左相机特征图M_l做矩阵乘法，并通过一个SoftMax层，得到右对左的视差注意力图M_r→l，并将其与通过1*1卷积后的右相机特征图M_r做矩阵乘法得到有效掩膜A，交换左右特征图重复上述步骤，得到有效掩膜B，然后将M_r、M_l、A、B通过卷积层进行融合，得到最终特征图以进行投影中心点的预测。

进一步地，所述目标深度值计算模块接收三维目标检测模块输出的类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码，最终得到目标的观测角度α和投影中心点坐标，

得出观测角度α后根据yaw＝α-tan^-1(-X/Z)得到目标的朝向角yaw，

得出目标的投影中心点坐标后，根据双目视觉几何模型进行目标深度的计算，得到目标深度Z后，根据投影矩阵以及投影中心点即可从图像像素坐标系反推回相机坐标系，得到目标基于相机坐标系的空间坐标(X,Y,Z)，

根据目标的朝向角、物理尺寸以及空间坐标即可在图像坐标系中绘制出三维目标框。

进一步地，所述三维目标检测方法中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分，其中二维目标检测损失由前景概率损失和二维目标框偏差回归损失组成，三维目标检测损失由分类损失和角度、物理尺寸、投影中心点回归损失组成，左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制。

与现有技术相比，本发明能够实现的有益效果是：利用卷积神经网络有效提取左右图像信息进行目标的精确定位并使用双目视觉几何模型进行目标深度值的计算，不需要额外的深度图信息，极大地减少了网络的计算量，提高了运行速度以及精度。

附图说明

图1为本发明实施例提供的一种基于双目视觉的三维目标检测系统的示意图；

图2为本发明实施例中双目相机几何模型图。

图3为本发明实施例效果示意图。

图4为本发明实施例鸟瞰示意图。

具体实施方式

如图1所示，为本实施例提供的一种基于双目视觉的三维目标检测系统，其中包括：特征提取模块、二维目标检测模块、三维目标检测模块、目标深度值计算模块。首先，左右视图输入特征提取模块得到左右特征图，并将左右特征图堆叠输入二维目标检测模块预测二维目标框，然后连接三维目标检测模块预测目标的类别、物理尺寸、朝向角以及中心投影点坐标，最后通过目标深度值计算模块计算出目标深度并根据投影矩阵恢复目标真实三位目标框。

本实施例还提供一种基于双目视觉的三维目标检测方法，能够检测出车辆前方目标的空间位置、朝向以及物理尺寸，为车辆控制层和决策层提供数据信息，具体包括以下步骤：

第一步：运用现有数据库对本发明涉及三维目标检测方法进行训练，具体如下：

本方法采用KITTI数据集进行训练，该数据集数据包含左右视图以及对于图像中目标的标注信息：目标类别，如轿车、卡车、行人等；目标的观测角度α；目标的二维边界框坐标(x_min，y_min，x_max，y_max)为左上角坐标以及右下角坐标；目标在左相机坐标系下的空间坐标(X,Y,Z)，单位为米；目标的物理尺寸(L,W,H)，L,W,H分别代表长，宽，高；目标的朝向角yaw，目标朝向角与观测角度的关系为：yaw＝α-tan^-1(-X/Z)。

对于后续目标的中心投影点真实坐标获取，由于数据集中目标空间坐标为目标底部中心坐标，所以目标中心坐标的Y需要减去h/2，然后通过投影矩阵P投影至左右视图像素坐标系中，得到目标的中心投影坐标(U_L,V_L，U_R)，其中U代表在像素坐标系的横坐标，V代表在像素坐标系的纵坐标，由于左右相机已经经过水平校准，所以V_L＝V_R，V_R为目标位于右视图中的纵坐标，V_L为目标位于左视图中的纵坐标。

其中f_x，f_y为焦距；c_x，c_y为光心坐标；b为基线距离，X,Y,Z代表目标在左相机坐标系下的空间坐标。

第二步：二维目标检测模块提取第一步训练后的特征提取模块输出的各尺寸特征图作为输入，通过卷积层预测每个先验目标框anchor为前景的概率fg以及目标分别位于左右视图的坐标。

为了提高目标检测精度特别是小目标的检测精度，本方法中特征提取模块采用了ResNet+FPN的网络架构，即对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作，使得上采样后的特征图具有与上一层特征图相同的大小，接着将上采样的结果和自下而上生成的特征图进行融合，即将卷积神经网络中生成的对应层的特征图进行1×1的卷积操作，得到一个新的特征图，这个特征图融合了不同层的特征，具有更丰富的信息。最终输出尺寸为32x32，64x64，128x128，256x256，512x512共五种尺寸规格的特征图。

二维目标检测模块主要由区域推荐网络(RPN)构成，将左右视图经上述特征提取模块得到的特征图通过通道叠加得到的总特征图作为输入，首先在总特征图各个像素位置上预先设置不同尺寸大小的目标框，称为先验目标框anchor，设置的长宽比例有0.5，1，2三种，先验目标框面积有32²，64²，128²，256²，512²共五种；然后经过一系列卷积层操作预测各个anchor的前景概率fg以及anchor对于真实目标框的偏差回归[du_l,dv,dw_l,dh,du_r,dw_r]，其中u、v表示图像中二维目标框的中心坐标，w、h表示二维目标框的宽度和高度，下标l、r代表左视图或者右视图。基于左右视图已经进行水平校正处理，所以左右视图同一目标的dv和dh是一样的。对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框，选择前2000个进行训练，选择前300个进行测试。真实目标框是指数据集中目标在图像中的真实坐标以宽高，推荐目标框是指先验目标框通过偏差回归计算得到的目标框。

上述所提及的真实目标框偏差回归是按以下方式计算所得：

其中G表示真实目标框，P表示先验目标框。

第三步：三维目标检测模块首先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测，将尺寸归一化为28x28用于目标的投影中心点预测。

上述的ROIAlign操作是指采用双线性插值的方式进行尺寸归一化。

上述将尺寸为14x14特征图作为输入的部分中共有目标类别、角度、物理尺寸三个预测分支。每个预测分支都具有自己的预测网络，首先进行全局卷积将特征处理成[1,1,2048]形状，然后通过节点数为1024的全连接层，最后得到输出结果。目标类别预测分支输出节点为类别个数n；角度预测分支输出节点为类别个数n*2，由[cosα，sinα]组成；物理尺寸预测分支输出节点为类别个数n*3，由[dL，dW，dH]组成。

在本实施例中，由于同类别目标的物理尺寸方差偏小，所以对于目标物理尺寸的预测是基于同类别平均尺寸进行的。首先计算出数据集中每一类别的平均尺寸，然后预测分支输出对于平均尺寸的偏差值，则最终的目标物理尺寸为

上述关于目标投影中心点的预测分支将尺寸为28x28的左右视图融合特征图作为输入，经过双目注意力机制学习左右视图特征，最终输出节点数为类别个数n*3，由[dU_L，dV_L，dU_R]组成。对于目标的投影中心点预测，将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值，预测结果为二维目标框中心坐标与目标投影中心点之间的偏差。

上述所提及的目标投影中心点的偏差回归是按以下方式计算所得：

其中U_L、V_L、U_R为真实投影中心点坐标，C_UL、C_VL、C_UR为二维目标框中心坐标，C_w、C_h为二维目标框宽高。

上式中的二维目标框中心坐标需要通过二维目标检测模块中预测的坐标偏差计算得出：

C_UL＝P_w*du_l+P_u，C_UR＝P_w*du_r+P_u，C_vL＝P_h*dv_l+P_v

C_w＝P_w*e^dw，C_h＝P_h*e^dh

上述的双目注意力机制是指以左右视图同一水平面即极线为搜索空间，通过矩阵乘法，捕捉左右特征图中任意两个位置之间的相互作用。具体操作为将右相机特征图M_r转置后与左相机特征图M_l做矩阵乘法，并通过一个SoftMax层，得到右对左的视差注意力图M_r→l，并将其与通过1*1卷积后的右相机特征图M_r做矩阵乘法得到有效掩膜A，交换左右特征图重复上述步骤，得到有效掩膜B，然后将M_r、M_l、A、B通过卷积层进行融合，得到最终特征图以进行投影中心点的预测。

第四步：目标深度值计算模块接收三维目标检测模块输出的目标类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码，其中

U_L＝C_w*dU_L+C_uL，V_L＝C_h*dV_L+C_VL，U_R＝C_w*dU_R+C_UR

得出目标的投影中心点坐标后，按照如图2所示的双目视觉几何模型进行目标深度的计算。根据几何模型可得：Z＝fb/d，其中d为视差，d＝U_L-U_R。f为焦距，b为基线距离。得到目标的深度Z后，根据第一步中所述的投影矩阵P以及目标的投影中心点即可从图像像素坐标系反推回相机坐标系，得到目标基于相机坐标系的空间坐标(X,Y,Z)，本系统是基于左侧相机建立相机坐标系。本系统通过预测目标的观测角度α，而目标的朝向角可根据观测角度以及目标空间坐标进行计算：yaw＝α-tan^-1(-X/Z)。根据目标的朝向角、物理尺寸以及空间坐标即可在图像坐标系中绘制出三维目标框。

本实施例中的三维目标检测系统采用端对端的训练方式，即将经过图像像素中心化的左右视图以及真实标注信息输入系统中，二维目标检测模块输出二维目标框坐标以及宽高偏差，接着三维目标检测模块输出目标的类别，角度、物理尺寸以及投影中心点的偏差。

本系统中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分，其中二维目标检测损失由前景概率损失和二维目标框偏差回归损失组成，即：

其中，N_cls为网络训练中设定的推荐区域选取数，设为512；N_reg为二维目标检测模块中正负样本总数，μ为权重超参，设为1。fg_i为网络输出的前景概率，fg_i ^*为目标真实标签中的前景概率，每个目标都是前景，所以概率为1。d_i为偏差值，包括左右中心坐标以及宽高等六个数值，d_i ^*为真实标签中的偏差值。i代表推荐区域。

采用的是交叉熵损失，

采用的是Smooth-L1损失。

三维目标检测损失由分类损失和角度、物理尺寸、投影中心点回归损失组成，即：

其中，p表示目标类别概率，p_i ^*表示目标真实类别，α表示目标预测角度，α_i ^*表示目标真实角度，d表示物理尺寸偏差，d_i ^*表示目标真实尺寸与平均尺寸的差值，c表示投影中心点偏差，c_i ^*表示目标真实投影中心点坐标与二维目标框中心坐标的偏差值，

表示各部分损失函数权重值。

采用的是交叉熵损失，其余采用Smooth-L1损失。

左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制部分的，其表达式如下：

L_pm＝∑_l→r||I_l(u_i，v_i)-(M_r→l*I_r(u_i，v_i))||+∑_r→l||I_r(u_i，v_i)-(M_l→r*I_l(u_i，v_i))||

其中I_l、I_r表示左右特征图上的像素值。

本系统网络训练期间，设置batch为1，即每次训练输入一对左右视图，采集512个RoI。使用Adam算法进行网络的训练优化，并设置Adam超参数β₁、β₂分别为0.9和0.999。学习率初始值为0.001，共训练20个epoch。

训练完毕的三维目标检测系统接收左右视图对作为输入，并在进入特征提取模块前进行图像像素中心化并将图像较短边尺寸调整为600，接着送入特征提取模块进行不同尺寸特征图的生成，然后二维目标检测模块根据anchor预测出目标概率以及二维目标框坐标，相应区域的特征图进入三维目标检测模块进行目标类别、角度、物理尺寸以及投影中心点的预测。最终，通过目标深度值计算模块得出目标的空间坐标以及三维目标框，最终三维目标框效果如图3所示，鸟瞰图如图4所示。

上述仅为本发明的优选实施例，不是用来限制发明的实施与权利范围，凡依据本发明申请专利保护范围所述的内容做出的等效变化、修饰、替换等，均应包括在本发明申请专利范围内。本领域技术人员将认识到在不脱离本发明的范围和精神的情况下，可在更广阔的各方面中进行改变和修改。

Claims

1.一种基于双目视觉的三维目标检测系统，其特征在于：包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块，其中，特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图，二维目标检测模块用于通过左特征图和右特征图预测二维目标框，三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标，目标深度值计算模块用于计算目标深度，然后根据投影矩阵恢复目标真实的三维目标框。

2.一种利用权利要求1所述检测系统的三维目标检测方法，其特征在于，包括：

将目标的左视图和右视图输入特征提取模块中，分别得到左特征图和右特征图，左特征图和右特征图通过通道数维度上叠加得到总特征图，

将总特征图输入到二维目标检测模块预测二维目标框，

三维目标检测模块根据二维目标框对目标的类别、角度和物理尺寸进行预测，并通过双目注意力机制对目标的投影中心点进行预测，

3.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：在使用所述三维目标检测方法进行测试之前，先对其进行训练，具体包括：

在获取目标中心投影点的真实坐标(X,Y,Z)时，由于数据集中目标空间坐标为目标底部中心坐标，所以目标中心坐标的Y需要减去目标高度的一半，然后通过投影矩阵P投影至左右视图像素坐标系中，得到目标的中心投影坐标(U_L,V_L，U_R)，其中U、V分别代表在像素坐标系的横坐标、纵坐标，L、R分别代表左视图、右视图，由于左右相机已经经过水平校准处理，所以V_L＝V_R，V_R为目标位于右视图中的纵坐标，

其中，f_x，f_y为焦距；c_x，c_y为光心坐标；b为基线距离；X,Y,Z代表目标在左相机坐标系下的空间坐标。

4.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：特征提取模块采用ResNet+FPN的网络架构，对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作，使得上采样后的特征图具有与上一层特征图相同的大小，接着将上采样的结果和自下而上生成的特征图进行融合，得到一个新的特征图。

5.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：二维目标检测模块包括区域推荐网络，首先在特征图各个像素位置上预先设置不同尺寸大小的目标框，称为先验目标框，设置的长宽比例有0.5，1，2三种，先验目标框面积有32²，64²，128²，256²，512²共五种；其次，二维目标检测模块通过卷积层操作预测各个先验目标框的前景概率fg以及先验目标框对于真实目标框的偏差回归[du_l，dv，dw_i，dh，du_r，dw_r]，其中u、v表示图像中二维目标框的中心坐标，w、h表示二维目标框的宽度和高度，下标1、r代表左视图或者右视图，基于左右视图已经进行水平校正处理，所以左右视图同一目标的dv和dh是一样的，对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框，选择前2000个进行训练，选择前300个进行测试，真实目标框是指数据集中目标在图像中的真实坐标以宽高，推荐目标框是指先验目标框通过偏差回归计算得到的目标框，

所述真实目标框的偏差回归是按以下方式计算所得：

其中，G表示真实目标框，P表示先验目标框。

6.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：三维目标检测模块进行预测前，先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测，另一分支将尺寸归一化为28x28用于目标的投影中心点的预测。

7.根据权利要求6所述的一种基于双目视觉的三维目标检测方法，其特征在于：三维目标检测模块包括类别、角度、物理尺寸和投影中心点四个预测分支，类别、角度、物理尺寸预测分支分别具有自己的预测网络，网络首先进行全局卷积将特征处理成[1，1，2048]形状，然后通过节点数为1024的全连接层进行信息传递，最后分别得到输出结果，

对于投影中心点的预测，将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值，预测结果为目标二维框中心坐标与目标投影中心点之间的偏差，投影中心点的的预测分支将尺寸为28x28的左右视图融合特征图作为输入，经过双目注意力机制学习左右视图特征，最终输出节点数为类别个数n*3，包括[dU_L，dV_L，dU_R]，

所述投影中心点的偏差回归是按以下方式计算所得：

C_UL＝P_w*du_l+P_u，C_UR＝P_w*du_r+P_u，C_VL＝P_h*dv_l+P_v

C_w＝P_w*e^dw，C_h＝P_h*e^dh。

8.根据权利要求7所述的一种基于双目视觉的三维目标检测方法，其特征在于：所述经过双目注意力机制学习左右视图特征，具体包括：将右相机特征图Mr转置后与左相机特征图M_l做矩阵乘法，并通过一个SoftMax层，得到右对左的视差注意力图M_r→l，并将其与通过1*1卷积后的右相机特征图M_r做矩阵乘法得到有效掩膜A，交换左右特征图重复上述步骤，得到有效掩膜B，然后将M_r、M_l、A、B通过卷积层进行融合，得到最终特征图以进行投影中心点的预测。

9.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：所述目标深度值计算模块接收三维目标检测模块输出的类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码，最终得到目标的观测角度α和投影中心点坐标，

得出目标的投影中心点坐标后，根据双目视觉几何模型进行目标深度的计算，得到目标深度Z后，根据投影矩阵以及投影中心点即可从图像像素坐标系反推回相机坐标系，得到目标基于相机坐标系的空间坐标(X，Y，Z)，

10.根据权利要求2所述的一种基于双目视觉的三维目标检测方法，其特征在于：所述三维目标检测方法中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分，其中二维目标检测损失包括前景概率损失和二维目标框偏差回归损失，三维目标检测损失包括分类损失和角度、物理尺寸和投影中心点回归损失，左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制。