CN111046767B - 一种基于单目图像的3d目标检测方法 - Google Patents

一种基于单目图像的3d目标检测方法 Download PDF

Info

Publication number
CN111046767B
CN111046767B CN201911226974.0A CN201911226974A CN111046767B CN 111046767 B CN111046767 B CN 111046767B CN 201911226974 A CN201911226974 A CN 201911226974A CN 111046767 B CN111046767 B CN 111046767B
Authority
CN
China
Prior art keywords
loss
frame
output
convolution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911226974.0A
Other languages
English (en)
Other versions
CN111046767A (zh
Inventor
李明
樊一帆
曹晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911226974.0A priority Critical patent/CN111046767B/zh
Publication of CN111046767A publication Critical patent/CN111046767A/zh
Application granted granted Critical
Publication of CN111046767B publication Critical patent/CN111046767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于单目图像的3D目标检测方法。首先充分利用标注好的数据集以及标定好的相机投影矩阵,得到2D,3D的先验锚框;利用预训练的深度卷积网络作为基础网络提取图像中的语义信息;利用三路并行的卷积模块,得到2D,3D框的各个成分输出,三路输出使用自学习权重参数进行融合;采用多任务损失函数平衡不同任务以及同一任务中不同成分的损失,得到精确的2D,3D框。该发明仅通过单目图像实现3D目标检测,成本低,效果好,可以广泛应用于无人驾驶领域。

Description

一种基于单目图像的3D目标检测方法
技术领域
本发明涉及的是一种无人驾驶目标检测领域的技术,具体来说是一种基于单目图像的3D目标检测技术。
背景技术
当前基于图像的二维目标检测技术发展相对比较成熟,相较于2D目标检测任务,3D目标检测任务难度更大,复杂度更高,并且意义重大。3D目标检测在无人驾驶领域发挥着非常重要的作用,不仅可以知道目标的大小,位置,运动方向,了解目标当前时刻的状态,同时对目标后续的预测,跟踪,避障,路径规划等具有辅助作用。因此,在无人驾驶领域急需一种精准的3D目标检测算法,确保无人驾驶的安全性和可靠性。
当前已有的3D目标检测技术主要依赖于高线束的激光雷达获取的点云数据,具体方法包括将点云投影到鸟瞰图或者前视图,利用二维图像目标检测技术进行检测以及直接对三维点云进行特征提取并检测。但是由于激光雷达成本高,点云数据量大,难以实际应用。基于单目图像的目标检测技术主要依赖于一些外部的子网络,这些子网络负责执行2D目标检测,深度图估计等任务。这种依赖于自网络的方法会潜在的加入噪声,对整个检测框架的性能产生影响。
发明内容
针对现有方法存在的不足,提出一种基于单目图像的三维目标检测方法,通过一种自上而下的单阶段的三维区域生成网络,输入单目图像及对应的相机投影矩阵,网络同时输出精确的二维和三维目标框,该方法成本低,效果好,实用价值高,可广泛应用在无人驾驶领域。
本发明的上述技术问题主要是通过下述技术方案得以解决的:一种基于单目图像的3D目标检测方法,包括如下步骤:
步骤1,生成2D,3D锚框模板,2D,3D锚框统一定义为[xp,yp,w2D,h2D,z3D,w3D,h3D,l3D3D];xp,yp表示2D锚框的中心坐标点,w2D,h2D分别表示2D锚框的宽高,xp,yp,z3D表示3D锚框的中心坐标点,w3D,h3D,l3D分别表示3D锚框的宽、高、长;θ3D表示3D锚框沿y轴方向的旋转角yaw,即偏航角;
步骤2,利用预训练的DenseNet121网络作为基础网络获取图像的特征图,提取图像中的语义信息;
步骤3,利用三路并行的卷积分支对特征图进行处理,充分提取图像中的深度特征;
步骤4,将三路并行的卷积分支分别通过两个不同的卷积层进行卷积处理,然后对三个分支的每一个输出设置一个网络权重,三路权重之和为1,得到融合后的输出,计算公式如下所示:
outputfinal=α*output1+β*output1+γ*output3
α+β+γ=1
其中,output1,output2,output3分别为三个卷积分支的输出;
步骤5,定义网络的输出,包括2D部分输出的4个2D框的回归值;3D部分输出的7个3D框的回归值;以及框的分类置信度;
2D部分的输出定义为b2D_out=[dx2D,dy2D,dw2D,dh2D],表示为2D框的转换值,预测的2D目标框b2D=[x′2D,y′2D,w′2D,h′2D]通过如下公式获得,
x′2D=xp+dx2D*t2D y′2D=yp+dy2D*t2D
w′2D=exp(dw2D)*w2Dh′2D=exp(dh2D)*h2D
3D部分的输出定义为b3D_out=[dxp,dyp,dz3D,dw3D,dh3D,dl3D,dθ3D],表示3D框的转换值,预测的3D目标框b3D=[x′p,y′p,z′3D,w′3D,h′3D,l′3D,θ′3D]由下列公式计算得到,
x′p=xp+dxp*t2D y′p=yp+dyp*t2D
z′3D=z3D+dz3D w′3D=exp(dw3D)*w3D
h′3D=exp(dh3D)*h3D l′3D=exp(dl3D)*l3D
θ′3D=θ3D+dθ3D
其中
Figure BDA0002302510200000031
步骤6,定义网络的损失函数,该损失函数包括分类损失、2D框损失、3D框损失,其中分类损失Losscls使用基于softmax的多项逻辑损失函数,2D框损失Loss2D采用基于对数的IOU损失,其公式为:
Loss2D=-log(IOU(b2D,g2D))
其中b2D为预测的2D目标框,g2D为真实的2D框;
3D框损失Loss3D采用smoothl1损失,用于计算网络输出的3D框各个参数与真实值的损失,定义联合3D损失Losscorner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和,3D框损失Loss3D公式为:Loss3D=λ1*(smoothl1(dxp,dxg)+smoothl1(dyp,dyg))+λ2*smoothl1(dz3D,dzg)+λ3*smoothl1(dw3D,dwg)+smoothl1(dh3D,dhg)+smoothl1(dl3D,dlg)+λ4*smoothl1(dθ3D,dθg)+λ5Losscorner
Figure BDA0002302510200000032
其中,dxg、dyg、dzg、dwg、dhg、dlg表示3D真实框与3D锚框的偏差值,作为真实的偏差值;dxp、dyp、dz3D、dw3D、dh3D、dl3D、dθ3D表示预测的偏差值;corner_pi表示预测的3D目标框的每个顶点的坐标,corner_gi为真实3D框的每个顶点的坐标;相机坐标系下预测的3D目标框的各个顶点坐标由b3D计算得到,λ2、λ1、λ3、λ4、λ5为常数;
整体损失函数定义为:Loss=Losscls+Loss2D+Loss3D
步骤7,将步骤5中获得的预测的3D目标框中心点转换到相机坐标系,获得相机坐标系下完整的3D框,计算公式如下,
Figure BDA0002302510200000041
其中P为3*4的相机投影矩阵,z′p=z′3D
步骤8,设置IOU阈值以及置信度阈值,去除掉置信度低于置信度阈值的框,然后去除掉IOU小于IOU阈值的框;
步骤10,输出在图像坐标系下预测的2D目标框的信息,以及相机坐标系下3D框的信息,得到最终的2D,3D目标框。
进一步的,所述步骤2中所述DenseNet121网络,在传统网络模型的基础上去掉transition中的池化层,使得最终生成的特征图相较于原图下采样16倍;并在denseblock4中使用空洞卷积,交替使用系数为2,3,5的空洞卷积。
进一步的,步骤3中三路并行的卷积分支包括,
分支一采用扩张卷积进行多尺度融合:首先对特征图进行4个子路的处理,第一个子路经过两个串联的3*3卷积;第二至四个子路首先使用3*3,扩张率为分别为2,4,8的空洞卷积,再使用3*3的卷积,然后将4个子路的特征拼接在一起;
分支二采用row bins模块,即将特征图分为多个不同的横条带,对每一个条带采用不同的卷积核进行卷积处理;
分支三的输出即为DenseNet121网络的输出,作为全局特征。
进一步的,步骤8中置信度阈值设置为0.7,设置IOU阈值为0.5。
进一步的,步骤6中λ4=λ2=1,λ1=λ3=0.7,λ5=0.2。
本发明具有如下优点:1.通过对数据集聚类以及均值统计等方式获得2D,3D先验锚框,能够大大缓解训练难度。2.采用3路并行的分支,并将各路输出结果融合,既保留的全局特征,又能提取网络相对于特定位置的深度特征,同时考虑到多尺度特征融合,能够有效提升检测精度。3.通过学习3D中心点在图像中的投影点,能够更有效的利用图像中的特征。4.通过设置不同的损失函数权重,使网络能从图像中学习到更准确的深度和旋转角度信息。
附图说明
图1是本发明中涉及的网络结构图。
图2是本发明中图1的输出效果图。
图3是本发明中涉及的2D中心,3D中心,以及3D投影中心的示意图。
图4是本发明中涉及的ASPP模块的示意图。
图5是本发明中涉及的row bins模块的示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
如图1所示,本发明提供一种基于单目图像的3D目标检测方法,包括以下步骤:
步骤1,生成2D、3D锚框模板。通过预先对标注好数据集的2D真实框聚类,得到K个大小,尺度不同的锚框,定义为[xp,yp,w2D,h2D],xp,yp表示2D锚框的中心坐标点,w2D,h2D分别表示2D锚框的宽高。3D锚框定义为[xp_3D,yp_3D,z3D,w3D,h3D,l3D3D],w3D,h3D,l3D分别表示3D框的尺寸,即宽,高,长;θ3D表示3D框沿y轴方向的旋转角yaw,即偏航角。其具体的值由以下方式获得。
首先[xp_3D,yp_3D]表示3D中心点[x3D,y3D]在图像的坐标系中的投影点,其中,图像坐标系即(U,V)坐标系,是以图像左上角为原点,图像的两边作为坐标轴。在本发明中,我们用二维锚框的中心点,作为三维锚框中心的投影点,二者公用一个中心点,即[xp_3D,yp_3D]=[xp,yp]。2D中心点,3D中心点,3D中心的投影点之间的关系如附图3说明。故而2D,3D锚框可以统一定义为[xp,yp,w2D,h2D,z3D,w3D,h3D,l3D3D]。通过计算K个2D锚框与数据集中所有真实3D框在图像上的投影2D框的交并比(IOU),设置IOU阈值,将高于阈值的3D真实框[zg_3D,wg_3D,hg_3D,lg_3Dg_3D]的信息赋予3D锚框并统计均值,得到[z3D,w3D,h3D,l3D3D],生成2D,3D锚框模板。
步骤2,利用预训练的DenseNet121网络作为基础网络获取图像的特征图,提取图像中的语义信息。为了保证最终特征图的大小,本发明去掉transition中的池化层,使得最终生成的特征图相较于原图下采样16倍。为了弥补去掉池化层带来的感受野减小问题,在denseblock4中使用空洞卷积,同时为了避免空洞卷积带来的网格效应,交替使用系数为2,3,5的空洞卷积。
步骤3,三路并行的卷积分支充分提取图像中的深度特征。
分支一采用扩张卷积进行多尺度融合,模块中的ASPP部分采用不同扩张系数的扩张卷积操作,能够在不改变图像分辨率的前提下,有效得到不同感受野大小的卷积操作,进而得到多尺度融合特征,如图4所示,对特征图进行4个子路的处理,第一个子路经过两个串联的3*3卷积;第二至四个子路首先使用3*3,扩张率为分别为2,4,8的空洞卷积,再使用3*3的卷积,然后将4个子路的特征拼接在一起;
分支二将特征图沿横向划分为b个条带,对每一个条带采用不同的卷积核进行卷积,能够为每个条带区域开发特定于位置的特征和偏差。如图5所示,row bins模型是将特征图分为不同的横条带,对每一个条带采用不同的卷积核进行卷积。优选32个条带,卷积核大小为3*3。
分支三作为全局特征,保留由基础网络学习到的特征,分支三的输出即为DenseNet121网络的输出。
步骤4,三路输出结果的融合。三路分支分别通过3*3,1*1的卷积,为了使网络输出充分利用三路特征信息,对每一个输出让网络自学习一个权重,三路权重之和为1,得到融合后的输出。计算公式如下所示
outputfinal=α*output1+β*output1+γ*output3
α+β+γ=1
步骤5,定义网络的输出。网络输出12个值,包括4个2D框的回归值;7个3D框的回归值;以及1个框的分类置信度。2D部分的输出定义为b2D_out=[dx2D,dy2D,dw2D,dh2D],表示为2D框的转换值,预测的2D目标框b2D=[x′2D,y′2D,w′2D,h′2D]通过如下公式获得,
x′2D=xp+dx2D*t2D y′2D=yp+dy2D*t2D
w′2D=exp(dw2D)*w2Dh′2D=exp(dh2D)*h2D
3D部分的输出定义为b3D_out=[dxp,dyp,dz3D,dw3D,dh3D,dl3D,dθ3D],表示3D框的转换值,预测3D的目标框b3D=[x′p,y′p,z′3D,w′3D,h′3D,l′3D,θ′3D]由下列公式计算得到
x′p=xp+dxp*t2D y′p=yp+dyp*t2D
z′3D=z3D+dz3D w′3D=exp(dw3D)*w3D
h′3D=exp(dh3D)*h3D l′3D=exp(dl3D)*l3D
θ′3D=θ3D+dθ3D
其中
Figure BDA0002302510200000081
步骤6:定义网络的损失函数,该损失函数包括分类损失,2D框损失,3D框损失。
分类损失Losscls使用基于softmax的多项逻辑损失函数。2D框损失Loss2D采用基于对数的IOU损失,其公式为
Loss2D=-log(IOU(b2D,g2D))
其中b2D为预测的2D目标框,g2D为真实的2D框。
3D框损失Loss3D采用smoothl1损失,用于计算网络输出的3D框各个参数与真实值的损失,同时,为提高3D框整体的精度,定义联合3D损失Losscorner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和。3D框损失Loss3D公式为:
Loss3D=λ1*(smoothl1(dxp,dxg)+smoothl1(dyp,dyg))+λ2*smoothl1(dz3D,dzg)+λ3*smoothl1(dw3D,dwg)+smoothl1(dh3D,dhg)+smoothl1(dl3D,dlg)+λ4*smoothl1(dθ3D,dθg)+λ5Losscorner
Figure BDA0002302510200000082
其中,dxg、dyg、dzg、dwg、dhg、dlg表示3D真实框与3D锚框的偏差值,作为真实的偏差值;dxp、dyp、dz3D、dw3D、dh3D、dl3D、dθ3D表示预测的偏差值;corner_pi表示预测的3D目标框的每个顶点的坐标,corner_gi为真实3D框的每个顶点的坐标。相机坐标系下预测的3D目标框的各个顶点坐标可由b3D计算得到,具体计算为现有技术,可参考文献1。
特别的,考虑仅使用单目图像来进行3D目标检测,估计目标的深度以及旋转角的难度要高于其他参数,因此使用不同的权重平衡3D框各个参数的损失,增大深度值以及旋转角的损失函数的权重,使网络更倾向于学习更准确的深度和角度信息。本实施例中设置λ4=λ2=1,λ1=λ3=0.7,λ5=0.2。
整体损失函数定义为:Loss=Losscls+Loss2D+Loss3D
步骤7,获得相机坐标系下完整的3D框。如步骤1和步骤5中所述,定义的3D锚框以及网络预测值均为3D中心点在图像坐标系下的投影点,通过2D-3D间的投影转换关系计算出相机坐标系下的3D中心。2D-3D投影转换如下公式表示,
Figure BDA0002302510200000091
其中P为3*4的相机投影矩阵,z′p=z′3D
步骤8,NMS过滤掉多余的预测2D目标框和3D目标框。设置IOU阈值以及置信度阈值,去除掉置信度低和重复的框。
置信度阈值通常设置为0.7,直接去掉置信度低于该阈值的框,对于置信度高于阈值的框,通常设置IOU阈值为0.5,去除掉重复的框。
步骤9,输出在图像坐标系下预测的2D目标框的信息,以及相机坐标系下3D框的信息,得到最终的2D、3D目标框。
训练过程:输入训练集,根据步骤1得到2D、3D锚框模版;图像经过DenseNet121以及三路并行的分支得到框的分类,2D框,3D框的输出;与真实框的信息做损失函数;反向传播,不断学习网络参数;
测试过程:输入测试集,使用训练过程中的2D,3D锚框作为先验;经过网络输出框的分类,2D框,3D框的信息;进行NMS去除多余的重复的2D和3D框;得到最终的2D,3D框。
在KITTI数据集中,按照KITTI数据集设置的汽车类官方的评估标准IOU>0.7的标准,其中验证集1请参考文献2,验证集2请参考文献3,按照本发明方法进行处理,得到评估汽车类的精度(ap)如表1所示:
表1本发明方法精度
Figure BDA0002302510200000101
参考文献:
1.https://blog.csdn.net/weizhangyjs/article/details/81020177。
2.X.Chen,K.Kundu,Y.Zhu,A.G.Berneshawi,H.Ma,S.Fidler,and R.Urtasun.3Dobject proposals for accurate object class detection.In NIPS,pages 424–432,2015.1,2,3,6,7,8。
3.Y.Xiang,W.Choi,Y.Lin,and S.Savarese.Subcategory-aware convolutionalneural networks for object proposals and detection.In WACV.IEEE,2017.6。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种基于单目图像的3D目标检测方法,其特征在于,包括以下步骤:
步骤1,生成2D,3D锚框模板,2D,3D锚框统一定义为[xp,yp,w2D,h2D,z3D,w3D,h3D,l3D,θ3D];xp,yp表示2D锚框的中心坐标点,w2D,h2D分别表示2D锚框的宽高,xp,yp,z3D表示3D锚框的中心坐标点,w3D,h3D,l3D分别表示3D锚框的宽、高、长;θ3D表示3D锚框沿y轴方向的旋转角yaw,即偏航角;
步骤2,利用预训练的DenseNet121网络作为基础网络获取图像的特征图,提取图像中的语义信息;
步骤3,利用三路并行的卷积分支对特征图进行处理,充分提取图像中的深度特征;
步骤3中三路并行的卷积分支包括,
分支一采用扩张卷积进行多尺度融合:首先对特征图进行4个子路的处理,第一个子路经过两个串联的3*3卷积;第二至四个子路首先使用3*3,扩张率为分别为2,4,8的空洞卷积,再使用3*3的卷积,然后将4个子路的特征拼接在一起;
分支二采用row bins模块,即将特征图分为多个不同的横条带,对每一个条带采用不同的卷积核进行卷积处理;
分支三的输出即为DenseNet121网络的输出,作为全局特征;
步骤4,将三路并行的卷积分支分别通过两个不同的卷积层进行卷积处理,然后对三个分支的每一个输出设置一个网络权重,三路权重之和为1,得到融合后的输出,计算公式如下所示:
outputfinal=α*output1+β*output1+γ*output3
α+β+γ=1
其中,output1,output2,output3分别为三个卷积分支的输出;
步骤5,定义网络的输出,包括2D部分输出的4个2D框的回归值;3D部分输出的7个3D框的回归值;以及框的分类置信度;
2D部分的输出定义为b2D_out=[dx2D,dy2D,dw2D,dh2D],表示为2D框的转换值,预测的2D目标框b2D=[x′2D,y′2D,w′2D,h′2D]通过如下公式获得,x′2D=xp+dx2D*t2D y′2D=yp+dy2D*t2D
w′2D=exp(dw2D)*w2D h′2D=exp(dh2D)*h2D
3D部分的输出定义为b3D_out=[dxp,dyp,dz3D,dw3D,dh3D,dl3D,dθ3D],表示3D框的转换值,预测的3D目标框b3D=[x′p,y′p,z′3D,w′3D,h′3D,l′3D,θ′3D]由下列公式计算得到,
x′p=xp+dxp*t2D y′p=yp+dyp*t2D
z′3D=z3D+dz3D w′3D=exp(dw3D)*w3D
h′3D=exp(dh3D)*h3D l′3D=exp(dl3D)*l3D
θ′3D=θ3D+dθ3D
其中
Figure FDA0003581743460000021
步骤6,定义网络的损失函数,该损失函数包括分类损失、2D框损失、3D框损失,其中分类损失Losscls使用基于softmax的多项逻辑损失函数,2D框损失Loss2D采用基于对数的IOU损失,其公式为:
Loss2D=-log(IOU(b2D,g2D))
其中b2D为预测的2D目标框,g2D为真实的2D框;
3D框损失LOSs3D采用smooth11损失,用于计算网络输出的3D框各个参数与真实值的损失,定义联合3D损失Losscorner表示为相机坐标系中预测的3D目标框与真实3D框的八个顶点的距离之和,3D框损失LOss3D公式为:LOss3D=λ1*(smoothl1(dxp,dxg)+smoothl1(dyp,dyg))+λ2*smoothl1(dz3D,dzg)+λ3*smoothl1(dw3D,dwg)+smoothl1(dh3D,dhg)+smoothl1(dl3D,dlg)+λ4*smoothl1(dθ3D,dθg)+λ5Losscorner
Figure FDA0003581743460000031
其中,dxg、dyg、dzg、dwg、dhg、dlg表示3D真实框与3D锚框的偏差值,作为真实的偏差值;dxp、dyp、dz3D、dw3D、dh3D、dl3D、dθ3D表示预测的偏差值;corner_pi表示预测的3D目标框的每个顶点的坐标,cornergi为真实3D框的每个顶点的坐标;相机坐标系下预测的3D目标框的各个顶点坐标由b3D计算得到,λ2、λ1、λ3、λ4、λ5为常数;
整体损失函数定义为:Loss=LoSscls+Loss2D+Loss3D
步骤7,将步骤5中获得的预测的3D目标框中心点转换到相机坐标系,获得相机坐标系下完整的3D框,计算公式如下,
Figure FDA0003581743460000032
其中P为3*4的相机投影矩阵,z′p=z′3D
步骤8,设置IOU阈值以及置信度阈值,去除掉置信度低于置信度阈值的框,然后去除掉IOU小于IOU阈值的框;
步骤10,输出在图像坐标系下预测的2D目标框的信息,以及相机坐标系下3D框的信息,得到最终的2D,3D目标框。
2.如权利要求1所述的一种基于单目图像的3D目标检测方法,其特征在于:所述步骤2中所述DenseNet121网络,在传统网络模型的基础上去掉transition中的池化层,使得最终生成的特征图相较于原图下采样16倍;并在denseblock4中使用空洞卷积,交替使用系数为2,3,5的空洞卷积。
3.如权利要求1所述的一种基于单目图像的3D目标检测方法,其特征在于:步骤8中置信度阈值设置为0.7,设置IOU阈值为0.5。
4.如权利要求1所述的一种基于单目图像的3D目标检测方法,其特征在于:步骤6中λ4=λ2=1,λ1=λ3=0.7,λ5=0.2。
CN201911226974.0A 2019-12-04 2019-12-04 一种基于单目图像的3d目标检测方法 Active CN111046767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911226974.0A CN111046767B (zh) 2019-12-04 2019-12-04 一种基于单目图像的3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911226974.0A CN111046767B (zh) 2019-12-04 2019-12-04 一种基于单目图像的3d目标检测方法

Publications (2)

Publication Number Publication Date
CN111046767A CN111046767A (zh) 2020-04-21
CN111046767B true CN111046767B (zh) 2022-06-07

Family

ID=70234606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226974.0A Active CN111046767B (zh) 2019-12-04 2019-12-04 一种基于单目图像的3d目标检测方法

Country Status (1)

Country Link
CN (1) CN111046767B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021226876A1 (zh) * 2020-05-13 2021-11-18 华为技术有限公司 一种目标检测方法及装置
CN111695480B (zh) * 2020-06-04 2023-04-28 重庆大学 基于单帧图像的实时目标检测与3d定位方法
CN113033687A (zh) * 2021-04-02 2021-06-25 西北工业大学 一种雨雪气候条件下的目标检测识别方法
CN113052835B (zh) * 2021-04-20 2024-02-27 江苏迅捷装具科技有限公司 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统
CN113128434B (zh) * 2021-04-27 2023-11-21 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN114119991A (zh) * 2021-09-30 2022-03-01 深圳市商汤科技有限公司 一种目标检测的方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440669A (zh) * 2013-09-10 2013-12-11 武汉大学 一种基于压缩域融合的Mean shift核窗宽动态更新方法
CN109977945A (zh) * 2019-02-26 2019-07-05 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10379220B1 (en) * 2018-01-29 2019-08-13 Gerard Dirk Smits Hyper-resolved, high bandwidth scanned LIDAR systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440669A (zh) * 2013-09-10 2013-12-11 武汉大学 一种基于压缩域融合的Mean shift核窗宽动态更新方法
CN109977945A (zh) * 2019-02-26 2019-07-05 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN110059554A (zh) * 2019-03-13 2019-07-26 重庆邮电大学 一种基于交通场景的多支路目标检测方法
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Robotic Grasping Algorithm based on Simplified Image and Deep Convolutional Neural Network;Tian Mu et.al;《2018 IEEE 4th Information Technology and Mechatronics Engineering Conference (ITOEC)》;20190620;第849-855页 *
基于进化优化及卷积网络的遥感图像变化检测;李成洲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215;第I140-330页 *

Also Published As

Publication number Publication date
CN111046767A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
CN112270249B (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
Du et al. A general pipeline for 3d detection of vehicles
CN111832655B (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
Du et al. Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework
CN111079685B (zh) 一种3d目标检测方法
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN111161349B (zh) 物体姿态估计方法、装置与设备
CN112613378B (zh) 3d目标检测方法、系统、介质及终端
CN109887021B (zh) 基于跨尺度的随机游走立体匹配方法
US20210192271A1 (en) Method and Apparatus for Pose Planar Constraining on the Basis of Planar Feature Extraction
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
Ding et al. Vehicle pose and shape estimation through multiple monocular vision
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
Ruf et al. Real-time on-board obstacle avoidance for UAVs based on embedded stereo vision
CN116030445A (zh) 一种结合点云形状特征的自动驾驶实时三维目标检测方法
Gomez-Donoso et al. Three-dimensional reconstruction using SFM for actual pedestrian classification
Hu et al. R-CNN based 3D object detection for autonomous driving
CN113160117A (zh) 一种自动驾驶场景下的三维点云目标检测方法
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
CN114120095A (zh) 一种基于空中三维模型的移动机器人自主定位系统及方法
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
WO2022017129A1 (zh) 目标对象检测方法、装置、电子设备及存储介质
CN115375746A (zh) 基于双重空间池化金字塔的立体匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Yang Liu

Inventor after: Li Ming

Inventor after: Fan Yifan

Inventor after: Cao Jing

Inventor before: Li Ming

Inventor before: Fan Yifan

Inventor before: Cao Jing

CB03 Change of inventor or designer information