CN111160214B

CN111160214B - 一种基于数据融合的3d目标检测方法

Info

Publication number: CN111160214B
Application number: CN201911354164.3A
Authority: CN
Inventors: 王正宁; 吕侠; 赵德明; 何庆东; 蓝先迪; 张翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2022-03-15
Anticipated expiration: 2039-12-25
Also published as: CN111160214A

Abstract

本发明提供了一种基于数据融合的3D目标检测方法，该方法采用深度卷积网络实现，具体包括：首先提出了一种特征提取方法，将点云鸟瞰图和待检测目标图像进行特征提取；然后利用马尔科夫随机场模型(MRF)将3D点云数据利用空间约束条件编码进一个全局能量函数，来提取3D候选建议框；最后提出一种数据融合方式，将多模态数据进行融合，进行目标框的分类和回归。本发明提出的基于数据融合的3D目标检测方法，能有效提高检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能，解决了道路环境下因为点云稀疏性而导致行人和车辆检测不佳的问题。

Description

一种基于数据融合的3D目标检测方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种基于数据融合的3D目标检测方法。

背景技术

随着人工智能技术的蓬勃发展，以高级辅助驾驶系统(Advanced DrivingAssistant System，ADAS)和无人驾驶技术为核心的智能汽车成为未来汽车的发展方向，作为其关键技术之一的三维(3D)目标检测，一直是该领域的研究热点。

针对3D目标检测，目前主流的有三种方法：第一种方法是基于单目RGB图像的3D目标检测，如由X.Chen等人(Chen X，Kundu K，Zhang Z，et al.Monocular 3D ObjectDetection for Autonomous Driving[C]//2016IEEE Conference on Computer Visionand Pattern Recognition(CVPR).IEEE，2016)提出的单目图像目标检测方法，该方法重点关注目标形状先验，上下文特征和单目图像的实例分割，以此来生成3D对象建议框，由于是单目图像，该种方法不可避免的缺乏准确的深度信息。第二种方法是基于双目RGB图像的3D目标检测方法，如同样由X.Chen等人(Chen X，Kundu K，Zhu Y，et a1.3D ObjectProposals using Stereo Imagery for Accurate Object Class Detection[J].IEEETransactions on Pattern Analysis and Machine Intelligence，2017：1-1)提出的3DOP目标检测方法，该方法通过将目标先验尺寸、深度信息(如自由空间、点云密度)，编码成能量函数来生成3D目标建议框，然后将3D建议框通过R-CNN方法进行回归。目前只有少数方法使用立体视觉的方式进行3D目标检测。第三种方法是基于LiDAR点云的3D目标检测，目前大多数最先进的3D目标检测方法都是依靠LiDAR数据提供准确的3D信息，然而不同的检测方法之间处理点云的方式也各有不同。如由C.R.Qi等人(C.R.Qi，W.Liu，C.Wu，H.Su，andL.J.Guibas，“Frustum pointnets for 3d object detection From rgb-d data，”arXivpreprint arXiv：1711.08488，2017)提出的F-PointNet方法，是将原始点云作为输入，然后基于2D目标检测和PointNet网络预测的平截头点云区域来定位3D对象。如由M.Engelcke等人(M.Engelcke，D.Rao，D.Z.Wang，C.H.Tong，and I.Posner.Vote3deep：Fast objectdetection In 3d point clouds using efficient convolutional neural networks.InRobotics and Automation(ICRA)，2017IEEE International Conference onpages 1355-1361.IEEE，2017.1，2)提出的快速目标检测方法，是利用结构化体素网格来量化原始点云数据，然后使用2D或3D CNN来检测3D对象。由H.Ma等人(X.Chen，H.Ma，J.Wan，B.Li，andT.Xia，“Multi-view 3d object detection network for Autonomous driving，”in IEEECVPR，2017)提出的MV3D目标检测方法，是将点云投影到2D鸟瞰图或前视图中，然后运用卷积神经网络(CNN)进行卷积处理，并且此过程中还结合了RGB图像数据，以获得更多的稠密信息。由庞彦伟等(庞彦伟，陈龙.一种基于点云数据的3D目标检测方法.专利号：201811371861.5)提出的基于点云数据的3D目标检测，同样是将点云数据投影到2D鸟瞰图上，通过ASPP网络提取点云数据特征，生成出3D空间中的候选目标位置。

发明内容

针对上述问题，本发明提出了一种基于数据融合的3D目标检测方法，该方法采用深度卷积网络实现，并具体包括以下步骤：

(1)准备待处理的数据集合，包括原始道路车辆RGB图像数据集和对应的目标点云数据集；

(2)将步骤(1)中的所述原始道路车辆RGB图像数据集和对应的目标点云数据集划分为训练集、验证集以及测试集，其中，验证集和测试集是深度卷积网络训练好之后，用来测试深度卷积网络检测性能的；

(3)将步骤(2)中所述训练集中的点云数据，经过体素化处理之后，利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数E(X_3D，y)；

(4)求解全局能量函数E(X_3D，y)，得到3D目标候选建议框y^*；

(5)将步骤(2)中所述训练集中的点云数据投影到二维平面得到鸟瞰图；

(6)将该鸟瞰图，使用特征提取网络进行特征提取，经过卷积层后分别得到特征图FG₁，FG₂，其中FG₁的尺寸是FG₂的2倍；

(7)将步骤(6)中的特征图FG₂，进行一个2倍的上采样处理，即反卷积操作，得到的特征图FG₃；

(8)将步骤(6)和(7)中得到的特征图FG₁和FG₂进行求和，做融合处理得到特征图FG；

(9)将步骤(2)中所述训练集中的原始道路车辆RGB图像，使用特征提取网络进行特征提取，经过卷积层后分别得到特征图FF₁，FF₂，其中FF₁的尺寸是FF₂的2倍；

(10)将步骤(9)中得到的特征图FF₂，进行一个2倍的上采样处理，即反卷积操作，得到的特征图FF₃；

(11)将步骤(9)和(10)中得到的特征图FF₃和FF₁进行求和，做融合处理得到特征图FF；

(12)将步骤(8)、(11)中得到的特征图FG、FF通过元素平均值法，进行特征图融合得到特征图F；

(13)将(4)中得到的3D目标候选建议框y^*，在特征图F上，投影成2D目标候选建议框，并且得到该2D目标候选建议框对应的ROI区域特征图；

(14)将步骤(13)得到的ROI区域特征图，通过两次全连接层之后，进行目标的分类和回归，得到最终的3D目标检测候选框，即3D目标检测最终的检测结果就是一个画在目标身上的一个3D框；

由此，所述训练集完成了对深度卷积网络的训练，然后采用所述验证集选择最佳的深度卷积网络训练模型，并采用所述测试集完成对选择出的最佳深度卷积网络训练模型的后期测试其性能或在实际应用时使用，实现基于数据融合的3D目标检测方法。

本发明提出的基于数据融合的3D目标检测方法在3D proposal初提取的时候，直接输入的是点云数据提供深度信息，而不是利用左右道路车辆图像，进行视差估计从而得到深度信息。这样做的好处是减少了计算的复杂度，而且得到的深度信息更加的准确，使得3D propo sal初提取的效果更加的好。另外，本发明充分利用了RGB图像信息和点云信息，因为虽然点云数据能很好的提供深度信息，但点云数据是比较稀疏的，空间信息提供的并不是很完整，而与点云数据相比，RGB图像提供了更密集的纹理信息，所以将两者结合起来使用，可以进一步的精确3D proposal，达到较好的检测效果。本发明通过激光雷达能更准确地获取到场景中目标的深度信息，即点云数据，进而实现在三维空间中粗略地得到出感兴趣目标的空间位置信息，然后通过加入RGB图像提供的密集的纹理信息，进行多模态数据融合，从而有效地提高了检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能，该技术可以解决道路环境下因为点云稀疏性而导致行人和车辆检测不佳的问题。

附图说明

图1为本发明的深度卷积网络结构图

图2为本发明的3D proposal提取示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明首先提出了一种特征提取方法，将点云鸟瞰图和待检测目标图像进行特征提取。然后利用马尔科夫随机场模型(MRF)将3D点云(利用空间约束条件)编码进一个全局能量函数，来提取3D候选建议框。最后提出一种数据融合方式，将多模态数据进行融合，进行目标框的分类和回归。整个发明的网络结构图参见图1。

在图1所显示的深度卷积网络的结构中，由上至下包含三个分支，其中，第一行分支中的输入图是3D点云数据投影到二维平面得到鸟瞰图；第二行分支中的输入图是未经处理的原始道路车辆RGB图像；第三行分支中的输入的是与原始道路车辆RGB图像相对应的3D点云数据；第一行和第二行分支中的输入图都需要先经过VGG16特征提取网络进行处理，该VGG16特征提取网络共包括13个卷积层及4个池化层，但不包含全连接层，这4个池化层将所述VGG16特征提取网络的卷积层分为5组，其中，第1组包括2个参数表示均为Conv3-64的卷积层；第2组包括2个参数表示均为Conv3-128的卷积层；第3组包括3个参数表示均为Conv3-256的卷积层；第4组包括3个参数表示均为Conv3-512的卷积层；第5组包括3个参数表示均为Conv3-512的卷积层，每一组卷积层之后均采用1个相同的池化层进行最大池化处理，进行最大池化的池化核大小均为2×2，步长为2；参数表示Conv3-64表示当前层卷积核大小是3×3，其输出为64个通道数；Conv3-128表示当前层卷积核大小是3×3，其输出为128个通道数；Conv3-256表示当前层卷积核大小是3×3，其输出为256个通道数；Conv3-512表示当前层卷积核大小是3×3，其输出为512个通道数；所述VGG16特征提取网络中的卷积核大小统一设置为3×3，步长为1；

在图1所显示的网络结构的第一行分支中的Block1(与第二行分支中的Block1一样)卷积层结构如下表1所示，表1与图1中Block1的对应关系为，Block1中一共有5个特征图，每一个特征图(除第一个特征图外)都是由上一个特征图通过VGG16中一组(分别通过第2组，第3组，第4组，第5组)卷积层加池化层得到的，VGG16中是以maxpool层为分界点来给卷积层分组的，比如表1中，第1个卷积层组有2个卷积层，第2组也有2个，第3组有3个，第4组有3个，第5组也有3个，再说下Block1中的第一个特征图，它是由输入图像通过VGG16中的第一个卷积组后得到，将通过VGG16网络最后一层的卷积层后，得到的特征图，先进行2倍上采样的反卷积操作(图1中的网络第二行的反卷积操作与第一行分支中的反卷积操作是一样的，并且参数都相同)，其中，反卷积层的参数为：kernel_size＝4、padding＝1、strides＝2，这些参数是根据上采样的倍数预先设计的参数，然后再与VGG16网络的conv4_3层(即表1中第10个卷积层，VGG16中一组卷积层由maxpool层界限，conv4_3代表VGG16中第4组第3个卷积层)得到的特征图进行特征融合，并由此生成鸟瞰图中目标的候选位置；此处不一定是一定要VGG16，可以是另外的K(2～5)层卷积层，表示此处的特征提取网络不一定要是VGG16网络，也可以是其他的网络，其中K代表满足要求的网络，(2～5)表示卷积层的个数，只需要最后提取到的两个特征图，在尺寸上满足2倍的关系就好了，此处的最后两个特征图的意思是，假如图像数据输入后，通过整个特征提取网络(CNN)，一共会产生N个特征图(包括中间结果的特征图和最后输出的特征图)，通过一组卷积层后，就能提取到一个中间结果的特征图，最后两个特征图就是指的是第N-1和N个特征图。

同理，图1中网络的第二行分支，在得到VGG16网络最后一层的特征图后，先进行2倍的反卷积操作，然后与VGG16网络的conv4_3层得到的特征图进行特征融合，得到该分支最终的输出特征图。

第三个分支是将点云数据，经过体素化之后，体素化即将输入的点云，用很多个小立方体(grid)进行划分，这样每个gird中就包含了不同个数的点云数据，这个小立方体grid在空间中就被称为一个voxel(体素)。利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数，通过求解该全局能量函数的最小值来得到最终的3D目标检测候选框。

图2就是上图1中的第三行，显示将点云数据体素化，然后将体素化后的点云数据利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数E(X_3D，y)，然后通过求解能量函数得到3D建议框。图2中的第1个模块是输入的点云，第2个模块是点云体素化，第3个模块是MRF随机场模型和点云空间约束条件，第4个模块是求解得到3D目标检测候选框。

表1具体补充说明特征提取层VGG16的参数，其中，3-64表示当前层卷积核大小是3×3，输出为64个通道数。

表1 VGG16网络结构示意图(不含全连接层)

本发明提出了一种基于数据融合的3D目标检测方法，属于人工智能范畴，与其他方法相比，该方法能得到更好的目标检测效果和更高的检测精度。

本发明提出的一种基于数据融合的3D目标检测方法，该方法采用深度卷积网络实现，并具体包括以下步骤：

(1)准备待处理的数据集合，包括原始道路车辆RGB图像数据集和对应的目标点云数据集O_3D，其中

代表目标点云数据集中的点云数据的三维坐标；

(3)将步骤(2)中所述训练集X_3D中的点云数据，经过体素化(图2的前一半为体素化处理)之后，利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数E(X_3D，y)；

(公式3)中X_3D代表点云集合(即训练集)，y代表3D建议框：

y＝(x′，y′，z′，θ，c，t) (公式4)

(公式4)中向量y用于描述一个3D包围盒(即3D建议框)，其包含6项参数：(x′，y′，z′)表示该3D包围盒中心坐标；θ表示该3D包围盒的偏转角度；c表示该3D包围盒所框目标的种类；t∈{1，...，T_c}表示该3D包围盒的模板集合，即表示目标所对应种类的物理尺寸范围，该模板集合可通过预设的数据集(此处的数据集可以是前面的训练集也可以不是，它是在道路上通常看见的基本车型的尺寸，所以可以使用其他车辆数据集(包含大量的常见的道路车辆))训练得到。

(公式3)中，φ_pcd(X_3D，y)、φ_fs(X_3D，y)、φ_ht(X_3D，y)、φ_ht-contr(X_3D，y)分别代表四种不同的约束条件，w_c，pcd、w_c，fs、w_c，ht、w_c，ht-contr代表四种不同的约束条件分别对应的权重：

φ_pcd(X_3D，y)代表点云密度，对于一个可能存在目标的3D建议框y，其框内点云密度必然是尽可能大的：

(公式5)中S(p)用于指示体素p是否被占据。所谓体素(voxel)是像素概念在3D空间的拓展，表示立体空间中最小体积元素。Ω(y)表示3D建议框y所包含的体素集合。

φ_fs(X_3D，y)代表自由空间(Free space)，所谓自由空间，指从当前体素到相机光心连线没有被其他非空体素遮挡的体素空间，这一约束项描述的是建议框y对目标点云集合的贴合程度：

(公式6)中F是自由空间指示器，当F(p)＝1时表示体素p与相机光心之间的连线没有被其他非空体素遮挡。

φ_ht(X_3D，y)表示先验高度，对于特定种类目标，可以认为其高度服从均值为μ_c，ht，标准差为σ_c，ht的正太分布。先验高度的意义是将建议框y内3D点云集合的平均高度约束在μ_c，ht附近：

(公式8)中d_p代表体素p距离道路平面的高度，μ_c，ht、σ_c，ht通过对所述训练集进行最大似然估计(MLE)得到。H_c(p)为对应体素p先验高度描述子，它将体素实际高度与高度均值关系编码进(公式8)中：当d_p接近μ_c，ht时H_c(p)趋近于1，d_p和μ_c，ht差距越大，H_c(p)越小，最终趋近于零，即H_c(p)奖励与μ_c，ht接近的体素。(公式7)表示取y内非空体素先验高度特征H_c的均值。

φ_ht-contr(X_3D，y)表示对比高度(Height Contrast)，其框内点云平均先验高度应当高于环绕在框周围点云的平均高度：

(公式9)中y⁺表示对3D建议框y各向扩展0.6m后的拓展框。按照假设，一个合适的3D建议框y扩展为y⁺后，点云平均高度将被拉低，所以φ_ht-contr(X_3D，y)在正常情况下应当为负值。

(公式3)中w_c，pcd、w_c，fs、w_c，ht、w_c，ht-contr是全局能量函数E(X_3D，y)中各约束项的权重。由于X_3D和y均为结构化向量，因此该权重采用结构化支持向量机(Structured SVM)训练权重模型得到。

(4)然后通过求解全局能量函数E(X_3D，y)，得到3D目标候选建议框y^*；

y^*＝argmin_yE(X_3D，y) (公式10)

(5)将步骤(2)训练集中的点云数据投影到二维平面得到鸟瞰图；

(6)将该鸟瞰图，使用特征提取网络(如VGG16)进行特征提取，经过卷积层后分别得到特征图FG₁，FG₂，其中FG₁的尺寸是FG₂的2倍。

(7)将步骤(6)中的特征图FG₂，进行一个2倍的上采样处理(即反卷积操作)，得到的特征图FG₃；

FG＝FG₁+FG₃ (公式11)

(9)将步骤(2)中所述训练集中的原始道路车辆RGB图像，使用特征提取网络(如VGG16)进行特征提取，经过卷积层后分别得到特征图FF₁，FF₂，其中FF₁的尺寸是FF₂的2倍；

(10)将步骤(9)中得到的特征图FF₂，进行一个2倍的上采样处理(即反卷积操作)，得到的特征图FF₃；

FF＝FF₁+FF₃ (公式12)

(14)将步骤(13)得到的ROI区域特征图，通过两次全连接层之后，进行目标的分类和回归，得到最终的3D目标检测候选框，即3D目标检测最终的检测结果就是一个画在目标身上的一个3D框。

由此，使用训练集完成了对深度卷积网络的训练，然后采用验证集选择最佳的深度卷积网络训练模型，并采用测试集完成对选择出的最佳深度卷积网络训练模型的后期测试其性能或在实际应用时使用。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于数据融合的3D目标检测方法，其特征在于，该方法采用深度卷积网络实现，并具体包括以下步骤：

代表目标点云数据集中的点云数据的三维坐标；

(3)将步骤(2)中所述训练集X_3D中的点云数据，经过体素化处理之后，利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数E(X_3D,y)；

公式3中的X_3D代表点云集合，即训练集，y代表3D建议框：

y＝(x′,y′,z′,θ,c,t) 公式4

公式4中向量y用于描述一个3D建议框，其包含6项参数：(x′,y′,z′)表示该3D建议框的中心坐标；θ表示该3D建议框的偏转角度；c表示该3D建议框所框目标的种类；t∈{1,...,T_c}表示该3D建议框的模板集合，即表示目标所对应种类的物理尺寸范围，该模板集合可通过预设的数据集训练得到；

公式3中，φ_pcd(X_3D,y)、φ_fs(X_3D,y)、φ_ht(X_3D,y)、φ_ht-contr(X_3D,y)分别代表四种不同的约束条件，w_c,pcd、w_c,fs、w_c,ht、w_c,ht-contr代表四种不同的约束条件分别对应的权重：

其中，φ_pcd(X_3D,y)代表点云密度，对于一个可能存在目标的3D建议框y，其框内点云密度必然是尽可能大的：

公式5中S(p)用于指示体素p是否被占据，体素(voxel)是像素概念在3D空间的拓展，表示立体空间中最小体积元素，Ω(y)表示3D建议框y所包含的体素集合；

φ_fs(X_3D,y)代表自由空间(Free space)，自由空间指从当前体素到相机光心连线没有被其他非空体素遮挡的体素空间，这一约束条件描述的是3D建议框y对目标点云集合的贴合程度：

公式6中F是自由空间指示器，当F(p)＝1时表示体素p与相机光心之间的连线没有被其他非空体素遮挡；

φ_ht(X_3D,y)表示先验高度，对于特定种类目标，可以认为其高度服从均值为μ_c,ht，标准差为σ_c,ht的正太分布，先验高度的意义是将3D建议框y内3D点云集合的平均高度约束在μ_c,ht附近：

公式8中d_p代表体素p距离道路平面的高度，μ_c,ht、σ_c,ht通过对所述训练集进行最大似然估计(MLE)得到，H_c(p)为对应体素p先验高度描述子，它将体素实际高度与高度均值关系编码进公式8中：当d_p接近μ_c,ht时H_c(p)趋近于1，d_p和μ_c,ht差距越大，H_c(p)越小，最终趋近于零，即H_c(p)奖励与μ_c,ht接近的体素，公式7表示取3D建议框y内非空体素先验高度特征H_c的均值；

φ_ht-contr(X_3D,y)表示对比高度(Height Contrast)，其3D建议框y内点云平均先验高度应当高于环绕在3D建议框y周围点云的平均高度：

公式9中y⁺表示对3D建议框y各向扩展0.6m后的拓展框；

公式3中w_c,pcd、w_c,fs、w_c,ht、w_c,ht-contr是全局能量函数E(X_3D,y)中各约束条件的权重，由于X_3D和y均为结构化向量，因此该权重采用结构化支持向量机(Structured SVM)训练权重模型得到；

(4)然后通过求解全局能量函数E(X_3D,y)，得到3D目标候选建议框y^*；

y^*＝argmin_yE(X_3D,y) 公式10

(8)将步骤(6)和(7)中得到的特征图FG₁和FG₃进行求和，做融合处理得到特征图FG；

FG＝FG₁+FG₃ 公式11

FF＝FF₁+FF₃ 公式12

由此，所述训练集完成了对深度卷积网络的训练，然后采用所述验证集选择最佳的深度卷积网络训练模型，并采用所述测试集完成对选择出的最佳深度卷积网络训练模型的后期测试或在实际应用时使用，实现基于数据融合的3D目标检测方法。

2.根据权利要求1所述的基于数据融合的3D目标检测方法，其特征在于，所述步骤(6)和步骤(9)中的特征提取网络为VGG16。

3.根据权利要求2所述的基于数据融合的3D目标检测方法，其特征在于，所述深度卷积网络的结构中，由上至下包含三个分支，其中，第一行分支中的输入图是3D点云数据投影到二维平面得到鸟瞰图；第二行分支中的输入图是未经处理的原始道路车辆RGB图像；第三行分支中的输入的是与原始道路车辆RGB图像相对应的3D点云数据；第一行和第二行分支中的输入图都需要先经过VGG16特征提取网络进行处理，该VGG16特征提取网络共包括13个卷积层及4个池化层，但不包含全连接层，这4个池化层将所述VGG16特征提取网络的卷积层分为5组，其中，第1组包括2个参数表示均为Conv3-64的卷积层；第2组包括2个参数表示均为Conv3-128的卷积层；第3组包括3个参数表示均为Conv3-256的卷积层；第4组包括3个参数表示均为Conv3-512的卷积层；第5组包括3个参数表示均为Conv3-512的卷积层，每一组卷积层之后均采用1个相同的池化层进行最大池化处理，进行最大池化的池化核大小均为2×2，步长为2；参数表示Conv3-64表示当前层卷积核大小是3×3，其输出为64个通道数；Conv3-128表示当前层卷积核大小是3×3，其输出为128个通道数；Conv3-256表示当前层卷积核大小是3×3，其输出为256个通道数；Conv3-512表示当前层卷积核大小是3×3，其输出为512个通道数；所述VGG16特征提取网络中的卷积核大小统一设置为3×3，步长为1；

在所述深度卷积网络的结构中，第一行分支中的Block1中一共有5个特征图，除第一个特征图外的每一个特征图都是由上一个特征图通过所述VGG16特征提取网络中对应的一组卷积层加池化层分别处理得到的，所述Block1中的第一个特征图由输入图像通过所述VGG16特征提取网络中的第1组卷积层加池化层处理得到；将通过所述VGG16特征提取网络最后1组卷积层加池化层处理得到的特征图，先进行2倍上采样的反卷积操作，再与所述VGG16特征提取网络的第4组第3个卷积层得到的特征图进行特征融合，并由此生成鸟瞰图中目标的候选位置，其中，进行反卷积操作的反卷积层的参数为：kernel_size＝4、padding＝1、strides＝2，这些参数都是根据上采样的倍数预先设定的；

在所述深度卷积网络的结构中，对第二行分支中的Block1进行与所述第一行分支中的B lock1相同的操作，得到所述第二行分支最终的输出特征图；

在所述深度卷积网络的结构中，第三行分支是将点云数据，经过体素化处理后，利用马尔科夫随机场模型(MRF)和点云空间约束条件，构建全局能量函数，通过求解该全局能量函数的最小值来得到最终的3D目标检测候选框，其中，体素化即将输入的点云数据，用若干个小立方体(grid)进行划分，这样每个gird中就包含了不同个数的点云数据，这样的小立方体grid在空间中就被称为一个体素(voxel)。