CN111160214B - 一种基于数据融合的3d目标检测方法 - Google Patents

一种基于数据融合的3d目标检测方法 Download PDF

Info

Publication number
CN111160214B
CN111160214B CN201911354164.3A CN201911354164A CN111160214B CN 111160214 B CN111160214 B CN 111160214B CN 201911354164 A CN201911354164 A CN 201911354164A CN 111160214 B CN111160214 B CN 111160214B
Authority
CN
China
Prior art keywords
point cloud
target
network
voxel
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911354164.3A
Other languages
English (en)
Other versions
CN111160214A (zh
Inventor
王正宁
吕侠
赵德明
何庆东
蓝先迪
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911354164.3A priority Critical patent/CN111160214B/zh
Publication of CN111160214A publication Critical patent/CN111160214A/zh
Application granted granted Critical
Publication of CN111160214B publication Critical patent/CN111160214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于数据融合的3D目标检测方法,该方法采用深度卷积网络实现,具体包括:首先提出了一种特征提取方法,将点云鸟瞰图和待检测目标图像进行特征提取;然后利用马尔科夫随机场模型(MRF)将3D点云数据利用空间约束条件编码进一个全局能量函数,来提取3D候选建议框;最后提出一种数据融合方式,将多模态数据进行融合,进行目标框的分类和回归。本发明提出的基于数据融合的3D目标检测方法,能有效提高检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能,解决了道路环境下因为点云稀疏性而导致行人和车辆检测不佳的问题。

Description

一种基于数据融合的3D目标检测方法
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种基于数据融合的3D目标检测方法。
背景技术
随着人工智能技术的蓬勃发展,以高级辅助驾驶系统(Advanced DrivingAssistant System,ADAS)和无人驾驶技术为核心的智能汽车成为未来汽车的发展方向,作为其关键技术之一的三维(3D)目标检测,一直是该领域的研究热点。
针对3D目标检测,目前主流的有三种方法:第一种方法是基于单目RGB图像的3D目标检测,如由X.Chen等人(Chen X,Kundu K,Zhang Z,et al.Monocular 3D ObjectDetection for Autonomous Driving[C]//2016IEEE Conference on Computer Visionand Pattern Recognition(CVPR).IEEE,2016)提出的单目图像目标检测方法,该方法重点关注目标形状先验,上下文特征和单目图像的实例分割,以此来生成3D对象建议框,由于是单目图像,该种方法不可避免的缺乏准确的深度信息。第二种方法是基于双目RGB图像的3D目标检测方法,如同样由X.Chen等人(Chen X,Kundu K,Zhu Y,et a1.3D ObjectProposals using Stereo Imagery for Accurate Object Class Detection[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2017:1-1)提出的3DOP目标检测方法,该方法通过将目标先验尺寸、深度信息(如自由空间、点云密度),编码成能量函数来生成3D目标建议框,然后将3D建议框通过R-CNN方法进行回归。目前只有少数方法使用立体视觉的方式进行3D目标检测。第三种方法是基于LiDAR点云的3D目标检测,目前大多数最先进的3D目标检测方法都是依靠LiDAR数据提供准确的3D信息,然而不同的检测方法之间处理点云的方式也各有不同。如由C.R.Qi等人(C.R.Qi,W.Liu,C.Wu,H.Su,andL.J.Guibas,“Frustum pointnets for 3d object detection From rgb-d data,”arXivpreprint arXiv:1711.08488,2017)提出的F-PointNet方法,是将原始点云作为输入,然后基于2D目标检测和PointNet网络预测的平截头点云区域来定位3D对象。如由M.Engelcke等人(M.Engelcke,D.Rao,D.Z.Wang,C.H.Tong,and I.Posner.Vote3deep:Fast objectdetection In 3d point clouds using efficient convolutional neural networks.InRobotics and Automation(ICRA),2017IEEE International Conference onpages 1355-1361.IEEE,2017.1,2)提出的快速目标检测方法,是利用结构化体素网格来量化原始点云数据,然后使用2D或3D CNN来检测3D对象。由H.Ma等人(X.Chen,H.Ma,J.Wan,B.Li,andT.Xia,“Multi-view 3d object detection network for Autonomous driving,”in IEEECVPR,2017)提出的MV3D目标检测方法,是将点云投影到2D鸟瞰图或前视图中,然后运用卷积神经网络(CNN)进行卷积处理,并且此过程中还结合了RGB图像数据,以获得更多的稠密信息。由庞彦伟等(庞彦伟,陈龙.一种基于点云数据的3D目标检测方法.专利号:201811371861.5)提出的基于点云数据的3D目标检测,同样是将点云数据投影到2D鸟瞰图上,通过ASPP网络提取点云数据特征,生成出3D空间中的候选目标位置。
发明内容
针对上述问题,本发明提出了一种基于数据融合的3D目标检测方法,该方法采用深度卷积网络实现,并具体包括以下步骤:
(1)准备待处理的数据集合,包括原始道路车辆RGB图像数据集和对应的目标点云数据集;
(2)将步骤(1)中的所述原始道路车辆RGB图像数据集和对应的目标点云数据集划分为训练集、验证集以及测试集,其中,验证集和测试集是深度卷积网络训练好之后,用来测试深度卷积网络检测性能的;
(3)将步骤(2)中所述训练集中的点云数据,经过体素化处理之后,利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数E(X3D,y);
(4)求解全局能量函数E(X3D,y),得到3D目标候选建议框y*
(5)将步骤(2)中所述训练集中的点云数据投影到二维平面得到鸟瞰图;
(6)将该鸟瞰图,使用特征提取网络进行特征提取,经过卷积层后分别得到特征图FG1,FG2,其中FG1的尺寸是FG2的2倍;
(7)将步骤(6)中的特征图FG2,进行一个2倍的上采样处理,即反卷积操作,得到的特征图FG3
(8)将步骤(6)和(7)中得到的特征图FG1和FG2进行求和,做融合处理得到特征图FG;
(9)将步骤(2)中所述训练集中的原始道路车辆RGB图像,使用特征提取网络进行特征提取,经过卷积层后分别得到特征图FF1,FF2,其中FF1的尺寸是FF2的2倍;
(10)将步骤(9)中得到的特征图FF2,进行一个2倍的上采样处理,即反卷积操作,得到的特征图FF3
(11)将步骤(9)和(10)中得到的特征图FF3和FF1进行求和,做融合处理得到特征图FF;
(12)将步骤(8)、(11)中得到的特征图FG、FF通过元素平均值法,进行特征图融合得到特征图F;
(13)将(4)中得到的3D目标候选建议框y*,在特征图F上,投影成2D目标候选建议框,并且得到该2D目标候选建议框对应的ROI区域特征图;
(14)将步骤(13)得到的ROI区域特征图,通过两次全连接层之后,进行目标的分类和回归,得到最终的3D目标检测候选框,即3D目标检测最终的检测结果就是一个画在目标身上的一个3D框;
由此,所述训练集完成了对深度卷积网络的训练,然后采用所述验证集选择最佳的深度卷积网络训练模型,并采用所述测试集完成对选择出的最佳深度卷积网络训练模型的后期测试其性能或在实际应用时使用,实现基于数据融合的3D目标检测方法。
本发明提出的基于数据融合的3D目标检测方法在3D proposal初提取的时候,直接输入的是点云数据提供深度信息,而不是利用左右道路车辆图像,进行视差估计从而得到深度信息。这样做的好处是减少了计算的复杂度,而且得到的深度信息更加的准确,使得3D propo sal初提取的效果更加的好。另外,本发明充分利用了RGB图像信息和点云信息,因为虽然点云数据能很好的提供深度信息,但点云数据是比较稀疏的,空间信息提供的并不是很完整,而与点云数据相比,RGB图像提供了更密集的纹理信息,所以将两者结合起来使用,可以进一步的精确3D proposal,达到较好的检测效果。本发明通过激光雷达能更准确地获取到场景中目标的深度信息,即点云数据,进而实现在三维空间中粗略地得到出感兴趣目标的空间位置信息,然后通过加入RGB图像提供的密集的纹理信息,进行多模态数据融合,从而有效地提高了检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能,该技术可以解决道路环境下因为点云稀疏性而导致行人和车辆检测不佳的问题。
附图说明
图1为本发明的深度卷积网络结构图
图2为本发明的3D proposal提取示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明首先提出了一种特征提取方法,将点云鸟瞰图和待检测目标图像进行特征提取。然后利用马尔科夫随机场模型(MRF)将3D点云(利用空间约束条件)编码进一个全局能量函数,来提取3D候选建议框。最后提出一种数据融合方式,将多模态数据进行融合,进行目标框的分类和回归。整个发明的网络结构图参见图1。
在图1所显示的深度卷积网络的结构中,由上至下包含三个分支,其中,第一行分支中的输入图是3D点云数据投影到二维平面得到鸟瞰图;第二行分支中的输入图是未经处理的原始道路车辆RGB图像;第三行分支中的输入的是与原始道路车辆RGB图像相对应的3D点云数据;第一行和第二行分支中的输入图都需要先经过VGG16特征提取网络进行处理,该VGG16特征提取网络共包括13个卷积层及4个池化层,但不包含全连接层,这4个池化层将所述VGG16特征提取网络的卷积层分为5组,其中,第1组包括2个参数表示均为Conv3-64的卷积层;第2组包括2个参数表示均为Conv3-128的卷积层;第3组包括3个参数表示均为Conv3-256的卷积层;第4组包括3个参数表示均为Conv3-512的卷积层;第5组包括3个参数表示均为Conv3-512的卷积层,每一组卷积层之后均采用1个相同的池化层进行最大池化处理,进行最大池化的池化核大小均为2×2,步长为2;参数表示Conv3-64表示当前层卷积核大小是3×3,其输出为64个通道数;Conv3-128表示当前层卷积核大小是3×3,其输出为128个通道数;Conv3-256表示当前层卷积核大小是3×3,其输出为256个通道数;Conv3-512表示当前层卷积核大小是3×3,其输出为512个通道数;所述VGG16特征提取网络中的卷积核大小统一设置为3×3,步长为1;
在图1所显示的网络结构的第一行分支中的Block1(与第二行分支中的Block1一样)卷积层结构如下表1所示,表1与图1中Block1的对应关系为,Block1中一共有5个特征图,每一个特征图(除第一个特征图外)都是由上一个特征图通过VGG16中一组(分别通过第2组,第3组,第4组,第5组)卷积层加池化层得到的,VGG16中是以maxpool层为分界点来给卷积层分组的,比如表1中,第1个卷积层组有2个卷积层,第2组也有2个,第3组有3个,第4组有3个,第5组也有3个,再说下Block1中的第一个特征图,它是由输入图像通过VGG16中的第一个卷积组后得到,将通过VGG16网络最后一层的卷积层后,得到的特征图,先进行2倍上采样的反卷积操作(图1中的网络第二行的反卷积操作与第一行分支中的反卷积操作是一样的,并且参数都相同),其中,反卷积层的参数为:kernel_size=4、padding=1、strides=2,这些参数是根据上采样的倍数预先设计的参数,然后再与VGG16网络的conv4_3层(即表1中第10个卷积层,VGG16中一组卷积层由maxpool层界限,conv4_3代表VGG16中第4组第3个卷积层)得到的特征图进行特征融合,并由此生成鸟瞰图中目标的候选位置;此处不一定是一定要VGG16,可以是另外的K(2~5)层卷积层,表示此处的特征提取网络不一定要是VGG16网络,也可以是其他的网络,其中K代表满足要求的网络,(2~5)表示卷积层的个数,只需要最后提取到的两个特征图,在尺寸上满足2倍的关系就好了,此处的最后两个特征图的意思是,假如图像数据输入后,通过整个特征提取网络(CNN),一共会产生N个特征图(包括中间结果的特征图和最后输出的特征图),通过一组卷积层后,就能提取到一个中间结果的特征图,最后两个特征图就是指的是第N-1和N个特征图。
同理,图1中网络的第二行分支,在得到VGG16网络最后一层的特征图后,先进行2倍的反卷积操作,然后与VGG16网络的conv4_3层得到的特征图进行特征融合,得到该分支最终的输出特征图。
第三个分支是将点云数据,经过体素化之后,体素化即将输入的点云,用很多个小立方体(grid)进行划分,这样每个gird中就包含了不同个数的点云数据,这个小立方体grid在空间中就被称为一个voxel(体素)。利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数,通过求解该全局能量函数的最小值来得到最终的3D目标检测候选框。
图2就是上图1中的第三行,显示将点云数据体素化,然后将体素化后的点云数据利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数E(X3D,y),然后通过求解能量函数得到3D建议框。图2中的第1个模块是输入的点云,第2个模块是点云体素化,第3个模块是MRF随机场模型和点云空间约束条件,第4个模块是求解得到3D目标检测候选框。
表1具体补充说明特征提取层VGG16的参数,其中,3-64表示当前层卷积核大小是3×3,输出为64个通道数。
表1 VGG16网络结构示意图(不含全连接层)
Figure GDA0003316885760000051
Figure GDA0003316885760000061
本发明提出了一种基于数据融合的3D目标检测方法,属于人工智能范畴,与其他方法相比,该方法能得到更好的目标检测效果和更高的检测精度。
本发明提出的一种基于数据融合的3D目标检测方法,该方法采用深度卷积网络实现,并具体包括以下步骤:
(1)准备待处理的数据集合,包括原始道路车辆RGB图像数据集和对应的目标点云数据集O3D,其中
Figure GDA0003316885760000064
代表目标点云数据集中的点云数据的三维坐标;
Figure GDA0003316885760000062
Figure GDA0003316885760000063
(2)将步骤(1)中的所述原始道路车辆RGB图像数据集和对应的目标点云数据集划分为训练集、验证集以及测试集,其中,验证集和测试集是深度卷积网络训练好之后,用来测试深度卷积网络检测性能的;
(3)将步骤(2)中所述训练集X3D中的点云数据,经过体素化(图2的前一半为体素化处理)之后,利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数E(X3D,y);
Figure GDA0003316885760000065
(公式3)中X3D代表点云集合(即训练集),y代表3D建议框:
y=(x′,y′,z′,θ,c,t) (公式4)
(公式4)中向量y用于描述一个3D包围盒(即3D建议框),其包含6项参数:(x′,y′,z′)表示该3D包围盒中心坐标;θ表示该3D包围盒的偏转角度;c表示该3D包围盒所框目标的种类;t∈{1,...,Tc}表示该3D包围盒的模板集合,即表示目标所对应种类的物理尺寸范围,该模板集合可通过预设的数据集(此处的数据集可以是前面的训练集也可以不是,它是在道路上通常看见的基本车型的尺寸,所以可以使用其他车辆数据集(包含大量的常见的道路车辆))训练得到。
(公式3)中,φpcd(X3D,y)、φfs(X3D,y)、φht(X3D,y)、φht-contr(X3D,y)分别代表四种不同的约束条件,wc,pcd、wc,fs、wc,ht、wc,ht-contr代表四种不同的约束条件分别对应的权重:
φpcd(X3D,y)代表点云密度,对于一个可能存在目标的3D建议框y,其框内点云密度必然是尽可能大的:
Figure GDA0003316885760000071
(公式5)中S(p)用于指示体素p是否被占据。所谓体素(voxel)是像素概念在3D空间的拓展,表示立体空间中最小体积元素。Ω(y)表示3D建议框y所包含的体素集合。
φfs(X3D,y)代表自由空间(Free space),所谓自由空间,指从当前体素到相机光心连线没有被其他非空体素遮挡的体素空间,这一约束项描述的是建议框y对目标点云集合的贴合程度:
Figure GDA0003316885760000072
(公式6)中F是自由空间指示器,当F(p)=1时表示体素p与相机光心之间的连线没有被其他非空体素遮挡。
φht(X3D,y)表示先验高度,对于特定种类目标,可以认为其高度服从均值为μc,ht,标准差为σc,ht的正太分布。先验高度的意义是将建议框y内3D点云集合的平均高度约束在μc,ht附近:
Figure GDA0003316885760000073
Figure GDA0003316885760000074
(公式8)中dp代表体素p距离道路平面的高度,μc,ht、σc,ht通过对所述训练集进行最大似然估计(MLE)得到。Hc(p)为对应体素p先验高度描述子,它将体素实际高度与高度均值关系编码进(公式8)中:当dp接近μc,ht时Hc(p)趋近于1,dp和μc,ht差距越大,Hc(p)越小,最终趋近于零,即Hc(p)奖励与μc,ht接近的体素。(公式7)表示取y内非空体素先验高度特征Hc的均值。
φht-contr(X3D,y)表示对比高度(Height Contrast),其框内点云平均先验高度应当高于环绕在框周围点云的平均高度:
Figure GDA0003316885760000081
(公式9)中y+表示对3D建议框y各向扩展0.6m后的拓展框。按照假设,一个合适的3D建议框y扩展为y+后,点云平均高度将被拉低,所以φht-contr(X3D,y)在正常情况下应当为负值。
(公式3)中wc,pcd、wc,fs、wc,ht、wc,ht-contr是全局能量函数E(X3D,y)中各约束项的权重。由于X3D和y均为结构化向量,因此该权重采用结构化支持向量机(Structured SVM)训练权重模型得到。
(4)然后通过求解全局能量函数E(X3D,y),得到3D目标候选建议框y*
y*=argminyE(X3D,y) (公式10)
(5)将步骤(2)训练集中的点云数据投影到二维平面得到鸟瞰图;
(6)将该鸟瞰图,使用特征提取网络(如VGG16)进行特征提取,经过卷积层后分别得到特征图FG1,FG2,其中FG1的尺寸是FG2的2倍。
(7)将步骤(6)中的特征图FG2,进行一个2倍的上采样处理(即反卷积操作),得到的特征图FG3
(8)将步骤(6)和(7)中得到的特征图FG1和FG2进行求和,做融合处理得到特征图FG;
FG=FG1+FG3 (公式11)
(9)将步骤(2)中所述训练集中的原始道路车辆RGB图像,使用特征提取网络(如VGG16)进行特征提取,经过卷积层后分别得到特征图FF1,FF2,其中FF1的尺寸是FF2的2倍;
(10)将步骤(9)中得到的特征图FF2,进行一个2倍的上采样处理(即反卷积操作),得到的特征图FF3
(11)将步骤(9)和(10)中得到的特征图FF3和FF1进行求和,做融合处理得到特征图FF;
FF=FF1+FF3 (公式12)
(12)将步骤(8)、(11)中得到的特征图FG、FF通过元素平均值法,进行特征图融合得到特征图F;
(13)将(4)中得到的3D目标候选建议框y*,在特征图F上,投影成2D目标候选建议框,并且得到该2D目标候选建议框对应的ROI区域特征图;
(14)将步骤(13)得到的ROI区域特征图,通过两次全连接层之后,进行目标的分类和回归,得到最终的3D目标检测候选框,即3D目标检测最终的检测结果就是一个画在目标身上的一个3D框。
由此,使用训练集完成了对深度卷积网络的训练,然后采用验证集选择最佳的深度卷积网络训练模型,并采用测试集完成对选择出的最佳深度卷积网络训练模型的后期测试其性能或在实际应用时使用。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于数据融合的3D目标检测方法,其特征在于,该方法采用深度卷积网络实现,并具体包括以下步骤:
(1)准备待处理的数据集合,包括原始道路车辆RGB图像数据集和对应的目标点云数据集O3D,其中
Figure FDA0003316885750000011
代表目标点云数据集中的点云数据的三维坐标;
Figure FDA0003316885750000012
Figure FDA0003316885750000013
(2)将步骤(1)中的所述原始道路车辆RGB图像数据集和对应的目标点云数据集划分为训练集、验证集以及测试集,其中,验证集和测试集是深度卷积网络训练好之后,用来测试深度卷积网络检测性能的;
(3)将步骤(2)中所述训练集X3D中的点云数据,经过体素化处理之后,利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数E(X3D,y);
Figure FDA0003316885750000014
公式3中的X3D代表点云集合,即训练集,y代表3D建议框:
y=(x′,y′,z′,θ,c,t) 公式4
公式4中向量y用于描述一个3D建议框,其包含6项参数:(x′,y′,z′)表示该3D建议框的中心坐标;θ表示该3D建议框的偏转角度;c表示该3D建议框所框目标的种类;t∈{1,...,Tc}表示该3D建议框的模板集合,即表示目标所对应种类的物理尺寸范围,该模板集合可通过预设的数据集训练得到;
公式3中,φpcd(X3D,y)、φfs(X3D,y)、φht(X3D,y)、φht-contr(X3D,y)分别代表四种不同的约束条件,wc,pcd、wc,fs、wc,ht、wc,ht-contr代表四种不同的约束条件分别对应的权重:
其中,φpcd(X3D,y)代表点云密度,对于一个可能存在目标的3D建议框y,其框内点云密度必然是尽可能大的:
Figure FDA0003316885750000015
公式5中S(p)用于指示体素p是否被占据,体素(voxel)是像素概念在3D空间的拓展,表示立体空间中最小体积元素,Ω(y)表示3D建议框y所包含的体素集合;
φfs(X3D,y)代表自由空间(Free space),自由空间指从当前体素到相机光心连线没有被其他非空体素遮挡的体素空间,这一约束条件描述的是3D建议框y对目标点云集合的贴合程度:
Figure FDA0003316885750000021
公式6中F是自由空间指示器,当F(p)=1时表示体素p与相机光心之间的连线没有被其他非空体素遮挡;
φht(X3D,y)表示先验高度,对于特定种类目标,可以认为其高度服从均值为μc,ht,标准差为σc,ht的正太分布,先验高度的意义是将3D建议框y内3D点云集合的平均高度约束在μc,ht附近:
Figure FDA0003316885750000022
Figure FDA0003316885750000023
公式8中dp代表体素p距离道路平面的高度,μc,ht、σc,ht通过对所述训练集进行最大似然估计(MLE)得到,Hc(p)为对应体素p先验高度描述子,它将体素实际高度与高度均值关系编码进公式8中:当dp接近μc,ht时Hc(p)趋近于1,dp和μc,ht差距越大,Hc(p)越小,最终趋近于零,即Hc(p)奖励与μc,ht接近的体素,公式7表示取3D建议框y内非空体素先验高度特征Hc的均值;
φht-contr(X3D,y)表示对比高度(Height Contrast),其3D建议框y内点云平均先验高度应当高于环绕在3D建议框y周围点云的平均高度:
Figure FDA0003316885750000031
公式9中y+表示对3D建议框y各向扩展0.6m后的拓展框;
公式3中wc,pcd、wc,fs、wc,ht、wc,ht-contr是全局能量函数E(X3D,y)中各约束条件的权重,由于X3D和y均为结构化向量,因此该权重采用结构化支持向量机(Structured SVM)训练权重模型得到;
(4)然后通过求解全局能量函数E(X3D,y),得到3D目标候选建议框y*
y*=argminyE(X3D,y) 公式10
(5)将步骤(2)中所述训练集中的点云数据投影到二维平面得到鸟瞰图;
(6)将该鸟瞰图,使用特征提取网络进行特征提取,经过卷积层后分别得到特征图FG1,FG2,其中FG1的尺寸是FG2的2倍;
(7)将步骤(6)中的特征图FG2,进行一个2倍的上采样处理,即反卷积操作,得到的特征图FG3
(8)将步骤(6)和(7)中得到的特征图FG1和FG3进行求和,做融合处理得到特征图FG;
FG=FG1+FG3 公式11
(9)将步骤(2)中所述训练集中的原始道路车辆RGB图像,使用特征提取网络进行特征提取,经过卷积层后分别得到特征图FF1,FF2,其中FF1的尺寸是FF2的2倍;
(10)将步骤(9)中得到的特征图FF2,进行一个2倍的上采样处理,即反卷积操作,得到的特征图FF3
(11)将步骤(9)和(10)中得到的特征图FF3和FF1进行求和,做融合处理得到特征图FF;
FF=FF1+FF3 公式12
(12)将步骤(8)、(11)中得到的特征图FG、FF通过元素平均值法,进行特征图融合得到特征图F;
(13)将(4)中得到的3D目标候选建议框y*,在特征图F上,投影成2D目标候选建议框,并且得到该2D目标候选建议框对应的ROI区域特征图;
(14)将步骤(13)得到的ROI区域特征图,通过两次全连接层之后,进行目标的分类和回归,得到最终的3D目标检测候选框,即3D目标检测最终的检测结果就是一个画在目标身上的一个3D框;
由此,所述训练集完成了对深度卷积网络的训练,然后采用所述验证集选择最佳的深度卷积网络训练模型,并采用所述测试集完成对选择出的最佳深度卷积网络训练模型的后期测试或在实际应用时使用,实现基于数据融合的3D目标检测方法。
2.根据权利要求1所述的基于数据融合的3D目标检测方法,其特征在于,所述步骤(6)和步骤(9)中的特征提取网络为VGG16。
3.根据权利要求2所述的基于数据融合的3D目标检测方法,其特征在于,所述深度卷积网络的结构中,由上至下包含三个分支,其中,第一行分支中的输入图是3D点云数据投影到二维平面得到鸟瞰图;第二行分支中的输入图是未经处理的原始道路车辆RGB图像;第三行分支中的输入的是与原始道路车辆RGB图像相对应的3D点云数据;第一行和第二行分支中的输入图都需要先经过VGG16特征提取网络进行处理,该VGG16特征提取网络共包括13个卷积层及4个池化层,但不包含全连接层,这4个池化层将所述VGG16特征提取网络的卷积层分为5组,其中,第1组包括2个参数表示均为Conv3-64的卷积层;第2组包括2个参数表示均为Conv3-128的卷积层;第3组包括3个参数表示均为Conv3-256的卷积层;第4组包括3个参数表示均为Conv3-512的卷积层;第5组包括3个参数表示均为Conv3-512的卷积层,每一组卷积层之后均采用1个相同的池化层进行最大池化处理,进行最大池化的池化核大小均为2×2,步长为2;参数表示Conv3-64表示当前层卷积核大小是3×3,其输出为64个通道数;Conv3-128表示当前层卷积核大小是3×3,其输出为128个通道数;Conv3-256表示当前层卷积核大小是3×3,其输出为256个通道数;Conv3-512表示当前层卷积核大小是3×3,其输出为512个通道数;所述VGG16特征提取网络中的卷积核大小统一设置为3×3,步长为1;
在所述深度卷积网络的结构中,第一行分支中的Block1中一共有5个特征图,除第一个特征图外的每一个特征图都是由上一个特征图通过所述VGG16特征提取网络中对应的一组卷积层加池化层分别处理得到的,所述Block1中的第一个特征图由输入图像通过所述VGG16特征提取网络中的第1组卷积层加池化层处理得到;将通过所述VGG16特征提取网络最后1组卷积层加池化层处理得到的特征图,先进行2倍上采样的反卷积操作,再与所述VGG16特征提取网络的第4组第3个卷积层得到的特征图进行特征融合,并由此生成鸟瞰图中目标的候选位置,其中,进行反卷积操作的反卷积层的参数为:kernel_size=4、padding=1、strides=2,这些参数都是根据上采样的倍数预先设定的;
在所述深度卷积网络的结构中,对第二行分支中的Block1进行与所述第一行分支中的B lock1相同的操作,得到所述第二行分支最终的输出特征图;
在所述深度卷积网络的结构中,第三行分支是将点云数据,经过体素化处理后,利用马尔科夫随机场模型(MRF)和点云空间约束条件,构建全局能量函数,通过求解该全局能量函数的最小值来得到最终的3D目标检测候选框,其中,体素化即将输入的点云数据,用若干个小立方体(grid)进行划分,这样每个gird中就包含了不同个数的点云数据,这样的小立方体grid在空间中就被称为一个体素(voxel)。
CN201911354164.3A 2019-12-25 2019-12-25 一种基于数据融合的3d目标检测方法 Active CN111160214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354164.3A CN111160214B (zh) 2019-12-25 2019-12-25 一种基于数据融合的3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354164.3A CN111160214B (zh) 2019-12-25 2019-12-25 一种基于数据融合的3d目标检测方法

Publications (2)

Publication Number Publication Date
CN111160214A CN111160214A (zh) 2020-05-15
CN111160214B true CN111160214B (zh) 2022-03-15

Family

ID=70558043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354164.3A Active CN111160214B (zh) 2019-12-25 2019-12-25 一种基于数据融合的3d目标检测方法

Country Status (1)

Country Link
CN (1) CN111160214B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052860B (zh) * 2020-09-11 2023-12-01 中国人民解放军国防科技大学 一种三维目标检测方法及系统
CN112132829A (zh) 2020-10-23 2020-12-25 北京百度网讯科技有限公司 车辆信息的检测方法、装置、电子设备和存储介质
CN112288709B (zh) * 2020-10-28 2022-04-29 武汉大学 一种基于点云的三维目标检测方法
CN112329678B (zh) * 2020-11-12 2023-03-24 山东师范大学 一种基于信息融合的单目行人3d定位的方法
CN113011317B (zh) * 2021-03-16 2022-06-14 青岛科技大学 三维目标检测方法及检测装置
CN113255444A (zh) * 2021-04-19 2021-08-13 杭州飞步科技有限公司 图像识别模型的训练方法、图像识别方法和装置
CN113239749B (zh) * 2021-04-27 2023-04-07 四川大学 一种基于多模态联合学习的跨域点云语义分割方法
CN113378854A (zh) * 2021-06-11 2021-09-10 武汉大学 一种融合原始点云和体素划分的点云目标检测方法
CN113706480B (zh) * 2021-08-13 2022-12-09 重庆邮电大学 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN113807184A (zh) * 2021-08-17 2021-12-17 北京百度网讯科技有限公司 障碍物检测方法、装置、电子设备及自动驾驶车辆
CN115131619B (zh) * 2022-08-26 2022-11-22 北京江河惠远科技有限公司 基于点云和图像融合的特高压零件分拣方法和系统
CN116740668B (zh) * 2023-08-16 2023-11-14 之江实验室 三维目标检测方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104246821A (zh) * 2012-04-16 2014-12-24 日产自动车株式会社 三维物体检测装置和三维物体检测方法
CN109597087A (zh) * 2018-11-15 2019-04-09 天津大学 一种基于点云数据的3d目标检测方法
US10488860B1 (en) * 2006-02-21 2019-11-26 Automodality, Inc. Geocoding data for an automated vehicle

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10488860B1 (en) * 2006-02-21 2019-11-26 Automodality, Inc. Geocoding data for an automated vehicle
CN104246821A (zh) * 2012-04-16 2014-12-24 日产自动车株式会社 三维物体检测装置和三维物体检测方法
CN109597087A (zh) * 2018-11-15 2019-04-09 天津大学 一种基于点云数据的3d目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Accurate and Real-Time Object Detection Based on Bird"s Eye View on 3D Point Clouds》;Zhang Yi et al;《IEEE》;20191031;全文 *
《基于多传感器的自动驾驶目标检测》;廖岳鹏;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20191215(第2019年第12期);全文 *
《无人驾驶中3D目标检测方法研究综述》;季一木等;《南京邮电大学学报(自然科学版)》;20191012;第39卷(第4期);全文 *

Also Published As

Publication number Publication date
CN111160214A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
CN110298262B (zh) 物体识别方法及装置
CN111079685B (zh) 一种3d目标检测方法
US10885659B2 (en) Object pose estimating method and apparatus
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Du et al. Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework
CN110674829B (zh) 一种基于图卷积注意网络的三维目标检测方法
Zhang et al. Dispsegnet: Leveraging semantics for end-to-end learning of disparity estimation from stereo imagery
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN113168510A (zh) 通过细化形状先验分割对象
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
CN113284163B (zh) 基于车载激光雷达点云的三维目标自适应检测方法及系统
WO2020131134A1 (en) Systems and methods for determining depth information in two-dimensional images
Wang et al. An overview of 3d object detection
EP3872761A2 (en) Analysing objects in a set of frames
Song et al. Deep novel view synthesis from colored 3d point clouds
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
CN115830406A (zh) 一种基于多视差尺度的快速光场深度估计方法
CN102708589B (zh) 一种基于特征聚类的三维目标多视点视图建模方法
CN115631344A (zh) 一种基于特征自适应聚合的目标检测方法
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
Sundaram et al. FSSCaps-DetCountNet: fuzzy soft sets and CapsNet-based detection and counting network for monitoring animals from aerial images
CN114998610A (zh) 一种目标检测方法、装置、设备及存储介质
Huang et al. ES-Net: An efficient stereo matching network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant