CN111369617A - 一种基于卷积神经网络的单目视图的3d目标检测方法 - Google Patents

一种基于卷积神经网络的单目视图的3d目标检测方法 Download PDF

Info

Publication number
CN111369617A
CN111369617A CN201911424210.2A CN201911424210A CN111369617A CN 111369617 A CN111369617 A CN 111369617A CN 201911424210 A CN201911424210 A CN 201911424210A CN 111369617 A CN111369617 A CN 111369617A
Authority
CN
China
Prior art keywords
convolution
neural network
camera
target
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911424210.2A
Other languages
English (en)
Other versions
CN111369617B (zh
Inventor
丁勇
罗述杰
李佳乐
孙阳阳
周一博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911424210.2A priority Critical patent/CN111369617B/zh
Publication of CN111369617A publication Critical patent/CN111369617A/zh
Application granted granted Critical
Publication of CN111369617B publication Critical patent/CN111369617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的单目视图的3D目标检测方法。在自动驾驶场景中主要检测的3D目标包括但不局限于汽车,行人,以及自行车等类别。本发明主要包括如下步骤:首先利用事先准备好的训练集训练好网络参数;然后在预测阶段,将车载摄像头采集的单目图像经过预处理后,输入至训练好的卷积神经网络当中,预测出目标的2D边框、实际尺寸大小、和深度;最后通过射影几何相机模型求解出3D目标的3D空间中的位置。基于本发明所提出方法的基于单目视图的3D目标检测方法在测试数据集中具有较高的精度,具有良好的准确性和鲁棒性。

Description

一种基于卷积神经网络的单目视图的3D目标检测方法
技术领域
本发明属于计算机视觉领域,尤其涉及一种基于卷积神经网络的单目视图的3D目标检测方法。
背景技术
视觉是人们在驾驶车辆过程感知周围环境时主要依赖的信息来源。人类的视觉经过漫长时间的进化,对周围的环境具有很好的感知能力,可以轻松识别出周围的目标对象和对周围目标对象进行定位感知。而计算机视觉技术正是想要赋予计算机人类的视觉识别和定位的功能。通过复杂的图像计算,计算机能够识别和定位出目标对象。
近年来自动驾驶无论在工业界还是学术界均受到了很大的关注,自动驾驶的目的是一定程度上或者完全代替人类的驾驶行为。随着近年来自动驾驶领域技术的向前推进,越来越多的自动驾驶功能逐步进入到人们的日常出行当中。为了在自动驾驶的过程中,保证车内人员和周围环境的车辆和行人的安全,自动驾驶对感知环境有极高的要求。在自动驾驶技术领域中,感知是进行人机交互的前提,感知直接影响到对车辆主体周围环境的认知情况。车辆主体对周围环境的准确感知,是车辆进行决策规划的前提,是保障车辆安全驾驶,保障车内乘客的人身安全的前提条件。在感知领域有众多的技术路线,按照传感器类型可以分为基于激光雷达、基于毫米波雷达和基于摄像头的。基于摄像头的方案又可以分为单目和双目,而本发明提出的是一种基于单目摄像头的3D目标检测方法。
3D目标检测是自动驾驶领域一个非常重要的基本任务,三维空间中的物体一般用一个3D Box进行表示,其参数包括空间坐标(x,y,z)、尺寸大小(l,w,h)和偏航角(θ)。相比较于激光雷达,单目摄像头有着低成本,高分辨率,成像稳定的优势,在自动驾驶领域被广泛应用。但是单目摄像头由于透视投影的关系,缺失了深度信息,3D目标的定位具有较大的挑战。近年来,深度卷积神经网络(CNN)已经极大地改善了2D目标检测的性能。卷积神经网络的性能不断提高,通用性也在不断增强,为单目3D目标检测提供了强有力的技术手段。本发明则是提出了一种基于卷积神经网络的单目视图的3D目标检测方法。
发明内容
本发明的目的是针对现有的应用于自动驾驶场景的3D目标检测的不足,提供一种基于卷积神经网络的单目视图的3D目标检测方法。
本发明采取的技术方案是:
首先,从通过车载单目摄像头采集RGB图像和摄像头的标定参数;然后将图像进行预处理,输入至卷积神经网络当中,得到预测的参数,最后根据这些参数,利用相机模型计算出最终目标对象的3D边框,包括空间坐标和偏航角。
本发明解决其技术问题所采用的技术方案如下:
一种基于卷积神经网络的单目视图的3D目标检测方法,包括如下步骤:
步骤(1).获取车载摄像头采集的单目视图作为训练样本图像,并对训练样本图像中的目标对象进行标注,标注信息包括:相机的标定矩阵P、目标对象在图像上2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)、以及3D边框的中心位置(x3d,y3d,z3d)、长宽高(l3d,w3d,h3d)和偏航角(θ);
步骤(2).图像预处理:对训练样本图像的R、G、B通道分别进行中心化和标准化处理,公式如下:
X′=X-Xmean (1)
Xs=X′/Xstd (2)
其中X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(3).构建卷积神经网络,使用预处理后的训练样本图像对卷积神经网络进行训练;所述卷积神经网络包括主干网络和网络输出分支;
所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,所述的树状结构具体为:每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度(score),2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的z坐标(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset);
利用训练集上标注的信息,计算出每张图像所对应的神经网络输出的真值,并以此监督卷积神经网络的学习;其中目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0;偏移量(xoffset,yoffset)的真值的计算方法如下:
Figure BDA0002353137390000031
xoffset=u-x2d (4)
yoffset=v-y2d (5)
其中P,即(x3d,y3d,z3d)表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所述观察角(θl)的真值的计算方式如下:
θl=θ-θray (6)
Figure BDA0002353137390000041
步骤(4).在使用阶段,将图片输入至步骤(3)训练好的卷积神经网络模型,输出相应的目标对象;使用非极大值抑制算法对神经网络输出的目标对象进行去重叠处理;
步骤(5).从步骤(4)得到的结果中,保留置信度前靠前的K个目标对象,然后再选出置信度大于设定阈值(t)的目标对象;
步骤(6).根据步骤(5)筛选后的目标对象参数,利用摄像头标定矩阵计算每一个目标对象在3D空间中的具体位置:
根据相机模型:
Figure BDA0002353137390000042
其中P表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所以:
Figure BDA0002353137390000043
Figure BDA0002353137390000044
u=x2d+xoffset (11)
v=y2d+yoffset (12)
步骤(8).根据步骤(6)筛选后的目标对象参数(θl),和步骤(6)中计算得出空间坐标(x3d,y3d,z3d),计算得到3D目标的偏航角(θ):
θ=θlray (13)
Figure BDA0002353137390000045
其中θl表示观察角,θray表示相机到3D目标中心的射线与相机坐标系x轴的夹角。
作为本发明的优选,所述的步骤(3)卷积神经网络的主干网络的特征融合过程中使用行卷积,行卷积与普通卷积的不同之处在于普通卷积在整个特征图上的滑动卷积操作中均共享权重,而行卷积只在特征图进行一次行滑动卷积操作内共享卷积核的权重,不同行的卷积操作则不共享卷积核的权重。
本发明的有益效果:
本发明通过仅通过单目摄像头的图像检测出3D立体空间中的目标对象,应用于自动驾驶领域,有助于自动驾驶车辆对周围环境的准确感知。单目摄像头成本较低,但有分辨率高,成像稳定的有点。本发明提出的一种基于单目视图的3D目标检测方法,利用成本低的传感器,达到较高的准确度,在自动驾驶领域具有较大的应用前景。通过在训练集对卷积神经网路的权重参数进行优化,在测试集上与真实值具有较高的一致性。不仅能够正确识别不同类别的3D目标,而且对目标的定位和姿态估计等也具有很高的准确性。证明本发明具有较高的准确度和鲁棒性。
附图说明
图1为目标对象的偏航角和观察角的关系示意图;
图2为本发明的一种基于卷积神经网络的单目视图的3D目标检测方法结构框图;
图3为主干网络的结构示意图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
如图2所示,一种基于卷积神经网络的单目视图的3D目标检测方法,其具体实施步骤如下:
步骤(1).输入图像为车载摄像头采集的单目视图;
步骤(2).将训练样本分为训练集和测试集,将训练集样本放进卷积神经网络中利用反向传播法进行训练。测试集样本则用于测试模型的泛化能力。
步骤(3).对输入图像的R、G、B通道分别进行中心化和标准化处理,即减去训练集上统计得到的均值,再除以标准差:
X′=X-Xmean
Xs=X′/Xstd
其中,X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(4).将经过步骤(3)处理得到的图像送入到所设计卷积神经网络当中,得到卷积神经网络的输出:2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的深度(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset)。网络的输出均为中心化和标准化后的结果,均值和标准差计算出真实场景下的结果:
Ydn=Y×Ystd+Ymean
步骤(5).从步骤(4)中得到的这些目标对象中进行筛选,首先使用非极大值抑制算法,剔除掉重叠过大的目标对象。
步骤(6).保留置信度靠前的K个目标对象,K取100;然后再选出置信度大于设定阈值的目标对象,这里的阈值t取0.7。
步骤(7).根据步骤(6)筛选后的目标对象参数,结合摄像头的标定矩阵,计算目标对象在3D空间中的具体位置:
根据相机模型:
Figure BDA0002353137390000061
所以:
Figure BDA0002353137390000062
Figure BDA0002353137390000063
u=x2d+xoffset
v=y2d+yoffset
其中,(x3d,y3d,z3d)表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
步骤(8).目标对象的偏航角θ和观察角的关系如图1所示;根据步骤(6)筛选后的目标对象参数(θl),和步骤(7)中计算得出空间坐标(x3d,y3d,z3d),计算得到3D目标的偏航角(θ):
θ=θlray
Figure BDA0002353137390000071
如图3所示为本发明的主干网络的结构示意图,所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;
在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;
在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度(score),2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的z坐标(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset)。所述目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0。
偏移量(xoffset,yoffset)的真值的计算方法如下:
xoffset=u-x2d
yoffset=v-y2d
其中,(u,v)表示3D目标的中心点在2D图像上的投影坐标。
为了验证本发明所述的基于单目的3D目标检测方法的优越性,我们在卡尔斯鲁厄技术学院和芝加哥丰田技术学院共同发布的KITTI项目中的3D目标检测数据集(http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d)上进行了实验。
KITTI项目中的3D目标检测数据集提供了一共7481张单目视图数据,以及与之相对应的标签。实验中将图像分成了测试集和验证集,其中测试集3712张单目图像,验证集3769张单目图像。每张图像提供了相机的标定矩阵,以及图像中3D目标的真值。表1给出了本发明所述方法在验证集中的性能。表中的mAP(mean Average Precision)是验证3D目标检测算法性能的重要指标。表1罗列的是Car类目标IoU3d≥0.7,Pedestrian类目标IoU3d≥0.5,Cyclist类目标IoU3d≥0.5的性能情况。IoU的计算公式如下:
Figure BDA0002353137390000081
根据遮挡情况的多少,KITTI数据集将每一类目标对象分为了容易(Easy),中等难度(Moderate)和困难(Hard)三个难度,本发明在KITTI数据集上的性能结果如表1所示。
表1本发明所述算法在KITTI 3D目标检测数据集上的实验结果(单位:%)
Figure BDA0002353137390000082

Claims (2)

1.一种基于卷积神经网络的单目视图的3D目标检测方法,其特征在于包括如下步骤:
步骤(1).获取车载摄像头采集的单目视图作为训练样本图像,并对训练样本图像中的目标对象进行标注,标注信息包括:相机的标定矩阵P、目标对象在图像上2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)、以及3D边框的中心位置(x3d,y3d,z3d)、长宽高(l3d,w3d,h3d)和偏航角(θ);
步骤(2).图像预处理:对训练样本图像的R、G、B通道分别进行中心化和标准化处理,公式如下:
X'=X-Xmean (1)
Xs=X'/Xstd (2)
其中X是待预处理的图像,Xmean是所有训练样本图像的均值,Xstd是所有训练样本图像的标准差;
步骤(3).构建卷积神经网络,使用预处理后的训练样本图像对卷积神经网络进行训练;所述卷积神经网络包括主干网络和网络输出分支;
所述主干网络一共采用18个卷积块,每个卷积块内部均为残差结构;卷积块的内部结构包含两个分支,其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层,第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸;将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出;
将卷积块i定义为神经网络中按次序的第i个卷积块,卷积块3和卷积块4构成第一卷积组,卷积块5、6、7、8构成第二卷积组,卷积块9至16构成第三卷积组,卷积块17和18构成第四卷积组;卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512,整个主干网络中采用的卷积核尺寸为3*3或1*1;在各个卷积组内部,不同层级的卷积层得到的特征图通过树状的结构依次进行融合,所述的树状结构具体为:每一个卷积组内部的前两个卷积块进行组内特征融合,并将融合结果输入到下一个卷积块,依次类推,得到包含浅层信息和深层信息的特征图;在不同的卷积组之间进行组间特征融合,组间特征融合的过程具体为:首先将前一组卷积组得到的特征图经过行卷积,然后再和后一个卷积组得到的特征进行融合;
所述的网络输出分支设置在主干网络后面,对于所需的每个输出设置1个分支,一共12个分支;每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层;所述的12个分支相对应的输出为:目标对象的置信度(score),2D边框的中心位置(x2d,y2d)和宽高(w2d,h2d)以及3D边框的长宽高(l3d,w3d,h3d)、观察角(θl)、中心位置的z坐标(z3d)、中心位置在平面图像上的投影与2D边框中心的偏移量(xoffset,yoffset);
利用训练集上标注的信息,计算出每张图像所对应的神经网络输出的真值,并以此监督卷积神经网络的学习;其中目标对象的置信度的设置方式为:当输出特征图上该处对应的原输入图像出现了目标对象,则设为1,否则为0;偏移量(xoffset,yoffset)的真值的计算方法如下:
Figure FDA0002353137380000021
xoffset=u-x2d (4)
yoffset=v-y2d (5)
其中P,即(x3d,y3d,z3d)表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所述观察角(θl)的真值的计算方式如下:
θl=θ-θray (6)
Figure FDA0002353137380000022
步骤(4).在使用阶段,将图片输入至步骤(3)训练好的卷积神经网络模型,输出相应的目标对象;使用非极大值抑制算法对神经网络输出的目标对象进行去重叠处理;
步骤(5).从步骤(4)得到的结果中,保留置信度前靠前的K个目标对象,然后再选出置信度大于设定阈值t的目标对象;
步骤(6).根据步骤(5)筛选后的目标对象参数,利用摄像头标定矩阵计算每一个目标对象在3D空间中的具体位置:
根据相机模型:
Figure FDA0002353137380000031
其中P表示3D目标的中心点坐标,(u,v)表示3D目标的中心点在2D图像上的投影坐标,K矩阵表示相机的内参矩阵,通过相机厂商或者标定确定相机的内参矩阵;
所以:
Figure FDA0002353137380000032
Figure FDA0002353137380000033
u=x2d+xoffset (11)
v=y2d+yoffset (12)
步骤(8).根据步骤(6)筛选后的目标对象参数(θl),和步骤(6)中计算得出空间坐标(x3d,y3d,z3d),计算得到3D目标的偏航角(θ):
θ=θlray (13)
Figure FDA0002353137380000034
其中θl表示观察角,θray表示相机到3D目标中心的射线与相机坐标系x轴的夹角。
2.根据权利要求1所述的一种基于卷积神经网络的单目视图的3D目标检测方法,其特征在于所述的步骤(3)卷积神经网络的主干网络的特征融合过程中使用行卷积,所述行卷积只在特征图进行一次行滑动卷积操作内共享卷积核的权重,不同行的卷积操作则不共享卷积核的权重。
CN201911424210.2A 2019-12-31 2019-12-31 一种基于卷积神经网络的单目视图的3d目标检测方法 Active CN111369617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911424210.2A CN111369617B (zh) 2019-12-31 2019-12-31 一种基于卷积神经网络的单目视图的3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424210.2A CN111369617B (zh) 2019-12-31 2019-12-31 一种基于卷积神经网络的单目视图的3d目标检测方法

Publications (2)

Publication Number Publication Date
CN111369617A true CN111369617A (zh) 2020-07-03
CN111369617B CN111369617B (zh) 2022-06-21

Family

ID=71209964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424210.2A Active CN111369617B (zh) 2019-12-31 2019-12-31 一种基于卷积神经网络的单目视图的3d目标检测方法

Country Status (1)

Country Link
CN (1) CN111369617B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733672A (zh) * 2020-12-31 2021-04-30 深圳一清创新科技有限公司 基于单目相机的三维目标检测方法、装置和计算机设备
CN112990050A (zh) * 2021-03-26 2021-06-18 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN113128434A (zh) * 2021-04-27 2021-07-16 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN114663715A (zh) * 2022-05-26 2022-06-24 浙江太美医疗科技股份有限公司 医学图像质控、分类模型训练方法、装置及计算机设备
WO2022205329A1 (zh) * 2021-04-01 2022-10-06 京东方科技集团股份有限公司 对象检测方法、对象检测装置及对象检测系统
CN116214524A (zh) * 2023-05-08 2023-06-06 国网浙江省电力有限公司宁波供电公司 用于油样回收的无人机抓载方法、装置及存储介质
WO2024060708A1 (zh) * 2022-09-19 2024-03-28 北京京东尚科信息技术有限公司 目标检测方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018093796A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
CN108898628A (zh) * 2018-06-21 2018-11-27 北京纵目安驰智能科技有限公司 基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质
CN109308693A (zh) * 2018-08-29 2019-02-05 北京航空航天大学 由一台ptz相机构建的目标检测和位姿测量单双目视觉系统
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
US20190227556A1 (en) * 2018-01-23 2019-07-25 Gopro, Inc. Relative image capture device orientation calibration
CN110443827A (zh) * 2019-07-22 2019-11-12 浙江大学 一种基于改进孪生网络的无人机视频单目标长期跟踪方法
CN110517349A (zh) * 2019-07-26 2019-11-29 电子科技大学 一种基于单目视觉和几何约束的3d车辆目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018093796A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
US20190227556A1 (en) * 2018-01-23 2019-07-25 Gopro, Inc. Relative image capture device orientation calibration
CN108898628A (zh) * 2018-06-21 2018-11-27 北京纵目安驰智能科技有限公司 基于单目的车辆三维目标姿态估计方法、系统、终端和存储介质
CN109308693A (zh) * 2018-08-29 2019-02-05 北京航空航天大学 由一台ptz相机构建的目标检测和位姿测量单双目视觉系统
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
CN110443827A (zh) * 2019-07-22 2019-11-12 浙江大学 一种基于改进孪生网络的无人机视频单目标长期跟踪方法
CN110517349A (zh) * 2019-07-26 2019-11-29 电子科技大学 一种基于单目视觉和几何约束的3d车辆目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREAS GEIGER等: "Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite", 《2012IEEE 》 *
THOMAS RODDICK等: "Orthographic Feature Transform for Monocular 3D Object Detection", 《ARXIV》 *
李琳辉 等: "基于卷积神经网络的道路车辆检测方法", 《吉林大学学报(工学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733672A (zh) * 2020-12-31 2021-04-30 深圳一清创新科技有限公司 基于单目相机的三维目标检测方法、装置和计算机设备
CN112733672B (zh) * 2020-12-31 2024-06-18 深圳一清创新科技有限公司 基于单目相机的三维目标检测方法、装置和计算机设备
CN112990050A (zh) * 2021-03-26 2021-06-18 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN112990050B (zh) * 2021-03-26 2021-10-08 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
WO2022205329A1 (zh) * 2021-04-01 2022-10-06 京东方科技集团股份有限公司 对象检测方法、对象检测装置及对象检测系统
CN113128434A (zh) * 2021-04-27 2021-07-16 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN113128434B (zh) * 2021-04-27 2023-11-21 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN114663715A (zh) * 2022-05-26 2022-06-24 浙江太美医疗科技股份有限公司 医学图像质控、分类模型训练方法、装置及计算机设备
WO2024060708A1 (zh) * 2022-09-19 2024-03-28 北京京东尚科信息技术有限公司 目标检测方法和装置
CN116214524A (zh) * 2023-05-08 2023-06-06 国网浙江省电力有限公司宁波供电公司 用于油样回收的无人机抓载方法、装置及存储介质
CN116214524B (zh) * 2023-05-08 2023-10-03 国网浙江省电力有限公司宁波供电公司 用于油样回收的无人机抓载方法、装置及存储介质

Also Published As

Publication number Publication date
CN111369617B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111369617B (zh) 一种基于卷积神经网络的单目视图的3d目标检测方法
CN110942449B (zh) 一种基于激光与视觉融合的车辆检测方法
CN110988912B (zh) 自动驾驶车辆的道路目标与距离检测方法、系统、装置
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
US20200356790A1 (en) Vehicle image verification
CN105335955B (zh) 对象检测方法和对象检测装置
JP2021523443A (ja) Lidarデータと画像データの関連付け
GB2555214A (en) Depth map estimation with stereo images
CN108764187A (zh) 提取车道线的方法、装置、设备、存储介质以及采集实体
CN107341454A (zh) 一种场景中障碍物的检测方法及装置、电子设备
WO2022151664A1 (zh) 一种基于单目摄像头的3d物体检测方法
CN103770704A (zh) 用于识别车辆的停车位标志线的系统和方法
CN110969064A (zh) 一种基于单目视觉的图像检测方法、装置及存储设备
CN114495064A (zh) 一种基于单目深度估计的车辆周围障碍物预警方法
CN115861601B (zh) 一种多传感器融合感知方法及装置
JP2020061140A (ja) ブラインドスポットモニタリングのためのcnnの学習方法、テスティング方法、学習装置、及びテスティング装置
CN112654998B (zh) 一种车道线检测方法和装置
CN115909268A (zh) 一种动态障碍物检测方法及装置
CN116310673A (zh) 一种基于点云与图像特征融合的三维目标检测方法
CN111256651B (zh) 一种基于单目车载摄像头的周车测距方法和装置
CN113706599B (zh) 一种基于伪标签融合的双目深度估计方法
US11886995B2 (en) Recognition of objects in images with equivariance or invariance in relation to the object size
Du et al. Validation of vehicle detection and distance measurement method using virtual vehicle approach
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和系统
CN112329678B (zh) 一种基于信息融合的单目行人3d定位的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant