CN112001958A - 基于有监督单目深度估计的虚拟点云三维目标检测方法 - Google Patents

基于有监督单目深度估计的虚拟点云三维目标检测方法 Download PDF

Info

Publication number
CN112001958A
CN112001958A CN202011170037.0A CN202011170037A CN112001958A CN 112001958 A CN112001958 A CN 112001958A CN 202011170037 A CN202011170037 A CN 202011170037A CN 112001958 A CN112001958 A CN 112001958A
Authority
CN
China
Prior art keywords
point cloud
virtual point
target detection
dimensional
depth estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011170037.0A
Other languages
English (en)
Other versions
CN112001958B (zh
Inventor
傅骏伟
孟瑜伟
俞荣栋
刘轩驿
吴林峰
王豆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zheneng Digital Technology Co Ltd
Zhejiang Energy Group Research Institute Co Ltd
Original Assignee
Zhejiang Energy Group Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Energy Group Research Institute Co Ltd filed Critical Zhejiang Energy Group Research Institute Co Ltd
Priority to CN202011170037.0A priority Critical patent/CN112001958B/zh
Publication of CN112001958A publication Critical patent/CN112001958A/zh
Application granted granted Critical
Publication of CN112001958B publication Critical patent/CN112001958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本发明涉及一种基于有监督单目深度估计的虚拟点云三维目标检测方法,包括:步骤1、使用激光雷达进行测量,采集场景的深度信息;步骤2、用步骤1获得的数据集训练单目深度估计模型。本发明的有益效果是:本发明直接使用摄像头作为主要的感知手段,避免使用激光雷达等价格高昂的传感器在三维目标检测系统中的应用,同时也直接规避了多传感器感知方法中存在的联合标定与数据同步问题,进一步降低传感器部署成本,减少了对激光雷达的依赖,有助于降低三维目标检测方法的成本,推动该技术在各领域中的应用。另外,算法模型通过离线训练、在线预测的方式部署到边缘设备,缓解设备计算压力的同时,提升边缘设备的智能化水平。

Description

基于有监督单目深度估计的虚拟点云三维目标检测方法
技术领域
本发明属于目标检测技术领域,尤其涉及一种基于有监督单目深度估计的虚拟点云三维目标检测方法。
背景技术
目标检测技术是环境感知中最重要的任务之一,主要通过图像来感知目标物体的位置与类别。该技术被广泛应用于工业、交通、航天、医学等诸多领域。传统目标检测技术以二维检测为主,通过生成二维的检测框对目标物体的检测任务。为进一步提升感知水平,近年来许多研究工作将二维检测框推广到三维检测框,以获取更为详细的目标物体位姿状态。但由于图像信息本身无法提供距离信息,在以单一图像作为输入时的三维目标检测方法无法提供精确的位姿信息。目前,一些方法在硬件层面引入额外的传感器用于提升目标检测算法的感知能力,其主要包括摄像头、毫米波雷达、激光雷达等。其中,多摄像头方案通过多视角的手段提升检测精度,但容易受到光照条件影响;毫米波雷达则对金属物体较为灵敏,易出现感知过度的情况,并不适合大范围的环境感知;激光雷达凭借精度高,探测距离远,不受光照条件影响等优点,是目前最为可靠的环境感知传感器之一。
YOLO-6D仅使用图像数据进行三维目标检测,但检测精度表现一般。AVOD则将点云投影到俯视平面获得鸟瞰图(BEV),提升模型结果。PointNet则首先利用传统目标检测方法提取目标二维检测框,然后将其推广至视锥空间用于点云分割,最终获得较好的检测结果。VoxelNet引入体素的概念,针对点云本身包含目标点云数量明显少于背景点云的不平衡情况进行改进。但是一台64线激光雷达的售价高达75000美元,其高昂的成本是制约该技术落地的主要障碍。寻求一种低成本、高精度的三维目标检测方法是目前研究的难点。
YOLO三维目标检测方法,该方法将鸟瞰图作为3D位姿的先验知识。仅通过图像直接回归3D检测框的结果无需多阶段检测。网络引入一种将二维图像位置投影三维空间的卷积结构,并采用PnP算法估计位姿信息。最后引入坐标和置信度损失进行目标优化。虽然该方法将三维位姿问题转换为二维图像坐标点检测问题从而简化了目标问题,而且该方法在2D检测结果中也能有较好的表现,但是该方法一旦映射到三维空间,仍然存在较大的误差,无法与使用多种数据融合的三维目标检测算法相比;
AVOD多视图的三维目标检测方法,该方法在图像的基础上引入基于激光雷达的鸟瞰图数据。通过FPN网络分别对图像与鸟瞰图进行特征提取。并借助RPN网络通过两类特征获取候选区域。最终通过两者的候选区域融合获得检测结果。该方法直接采用激光雷达作为环境感知的硬件设备,价格高昂无法大规模应用于通用场景。激光雷达与摄像头的采集方案需要设备间的联合标定,若出现位置偏移等问题,需要重新标定,其过程较为复杂。另外,该方案也存在数据同步问题,采集到的图像与点云数据频率不一致,需要进行同步后才能进行目标检测。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于有监督单目深度估计的虚拟点云三维目标检测方法。
这种基于有监督单目深度估计的虚拟点云三维目标检测方法,包括以下步骤:
步骤1、使用激光雷达进行测量,分别采集包括开放道路、园区、测试道路在内的多种场景深度信息;使用单目摄像头采集场景RGB图像;构成RGB图像与深度图一一对应的数据集用于单目深度估计模型训练;数据集的RGB图像与深度图的尺寸保持一致,均为600×400,采样频率为10Hz;
步骤2、用步骤1获得的数据集训练单目深度估计模型:根据采集到的场景图像与深度信息,将单目RGB图像信息作为训练数据,将深度信息作为标签,同时将数据集划分为包含40000组数据的训练集、5000组数据的验证集和5000组数据的测试集;使用单目深度估计模型进行有监督的权重参数微调训练,具体步骤如下:
步骤2.1采用预训练的单目深度估计网络进行模型训练,固定单目深度估计模型中卷积层倒数第一层之前的所有权重参数,针对最后一层卷积层和输出层进行权重参数训练;
步骤2.2通过训练200次,借助Adam优化器对单目深度估计网络权重系数的训练进行优化。当模型在各项评价指标均方根误差(RMSE),对数误差(log10),相对误差(Rel)三个指标均趋于稳定,选取该模型作为训练结果,获得通过图像推理出深度图的单目深度估计模型;
步骤3、通过步骤2中获得的单目深度估计模型的最优权重系数,将单目深度估计模型的权重系数固化并部署到包含GPU和Docker容器的边缘设备;GPU提供算力支撑,Docker容器提供模型部署环境;边缘设备包含一台单目工业摄像机,相机为边缘设备提供持续的图像信号,通过采集到的单目RGB图像作为模型输入I,推理深度信息D
Figure 100002_DEST_PATH_IMAGE001
上式中,D为深度图中的深度信息,W为图像的宽,h为图像的高,R为实数空间;
步骤4、通过步骤3中获得的深度信息D构建稠密的虚拟点云;其中,借助像素空间到三维空间的映射关系,将深度图中每个二维像素点
Figure 156567DEST_PATH_IMAGE002
映射到三维空间坐标系得到虚拟点云点
Figure 100002_DEST_PATH_IMAGE003
Figure 808128DEST_PATH_IMAGE004
上式中,
Figure 100002_DEST_PATH_IMAGE005
为旋转矩阵、
Figure 525548DEST_PATH_IMAGE006
为平移矩阵、
Figure 100002_DEST_PATH_IMAGE007
为相机焦距、
Figure 842129DEST_PATH_IMAGE008
为焦距在像素平面的横坐标轴数值、
Figure 100002_DEST_PATH_IMAGE009
为焦距在像素平面的纵坐标轴数值、
Figure 125343DEST_PATH_IMAGE010
为像素平面原点横坐标轴数值、
Figure 100002_DEST_PATH_IMAGE011
为像素平面原点纵坐标轴数值、
Figure 400335DEST_PATH_IMAGE012
为深度图像素坐标系中的横坐标、
Figure 100002_DEST_PATH_IMAGE013
为深度图像素坐标系中的纵坐标;
Figure 339472DEST_PATH_IMAGE014
上式中,L指虚拟点云集合,一个虚拟点云集合LN个虚拟点云点构成;
通过上述步骤,构建包含虚拟点云和标签信息的目标检测数据集,用于三维目标检测模型的训练。
步骤5、通过步骤4中获得的虚拟点云目标检测数据集,训练基于多尺度的特征平衡化两阶段目标检测模型。
作为优选,所述步骤5具体包括如下步骤:
步骤5.1、构建基于特征平衡化的候选框生成网络,提取虚拟点云的候选检测框和前景背景分割特征;构建特征平衡化的网络参数初始化策略,根据正负样本不平衡程度对偏置量参数进行赋值:
Figure 100002_DEST_PATH_IMAGE015
其中,
Figure 993832DEST_PATH_IMAGE016
为初始化正样本权重,
Figure 100002_DEST_PATH_IMAGE017
为负样本权重;假设样本种类数量为
Figure 69236DEST_PATH_IMAGE018
,正样本数量为
Figure 100002_DEST_PATH_IMAGE019
,负样本数量为
Figure 249550DEST_PATH_IMAGE020
步骤5.2、构建基于多尺度特征的区域卷积神经网络,用基于多尺度特征的区域卷积神经网络在候选框中选择最优三维检测结果;其中,多尺度策略将步骤5.1中获得的前景背景分割特征与虚拟点云特征进行多尺度采样,然后通过编码网络将特征进行融合:
Figure 100002_DEST_PATH_IMAGE021
上式中,
Figure 675983DEST_PATH_IMAGE022
表示编码网络输出的特征,
Figure 100002_DEST_PATH_IMAGE023
表示编码网络,
Figure 865525DEST_PATH_IMAGE024
表示尺度下的分割特征图,
Figure 100002_DEST_PATH_IMAGE025
表示尺度下的虚拟点云特征图,
Figure 61014DEST_PATH_IMAGE026
表示缩放尺度因子;通过下采样方式对特征进行不同尺度的特征提取。
同时,构建三维空间DICE系数的损失函数,该函数通过对三维空间的解耦实现不同二维坐标系下的特征分解,避免特征不平衡对模型训练过程的影响:
Figure 100002_DEST_PATH_IMAGE027
Figure 677809DEST_PATH_IMAGE028
上式中,
Figure 100002_DEST_PATH_IMAGE029
表示估计为正样本的点云和真实正样本点云分别投影在
Figure 653855DEST_PATH_IMAGE030
平面上的交集,
Figure 100002_DEST_PATH_IMAGE031
表示在
Figure 107141DEST_PATH_IMAGE030
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 953874DEST_PATH_IMAGE032
表示估计为正样本的点云和真实正样本点云分别投影在
Figure 100002_DEST_PATH_IMAGE033
平面上的交集,
Figure 226723DEST_PATH_IMAGE034
表示在
Figure 100002_DEST_PATH_IMAGE035
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 939333DEST_PATH_IMAGE036
表示估计为正样本的点云和真实正样本点云分别投影在
Figure 100002_DEST_PATH_IMAGE037
平面上的交集,
Figure 955831DEST_PATH_IMAGE038
Figure 657071DEST_PATH_IMAGE037
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 100002_DEST_PATH_IMAGE039
指基于三维空间DICE系数的虚拟点云数据;获得三维目标检测网络模型。
步骤6、将由步骤5获得的基于多尺度的特征平衡化两阶段目标检测模型部署到边缘设备,与步骤4得到的虚拟点云共同构成基于虚拟点云的目标检测网络,得到基于虚拟点云的三维目标检测框。
作为优选,所述步骤2中单目深度估计模型使用自主构建的自动驾驶数据集进行模型参数的微调,可通过合理的计算资源扩大微调范围。
作为优选,所述步骤3中训练完成的单目深度估计模型部署在边缘计算设备侧,用于生成深度图。
作为优选,所述步骤4中通过获得的深度信息D构建稠密的虚拟点云的方式为:将深度图映射到三维空间得到虚拟点云。
作为优选,所述步骤5.1将特征平衡化的网络参数初始化策略用于模型偏置参数初始化,缓解正负样本不平衡导致的模型偏移问题。
作为优选,所述步骤5.1中模型进行40次迭代,取损失函数最优迭代次数模型作为输出模型。
作为优选,所述步骤5.2中在采样过程中将虚拟点云特征划分为1、2、4和8这四个缩放尺度,提升虚拟点云特征的表征能力。
作为优选,所述步骤5.2中构建三维空间DICE系数的损失函数,用于缓解正负样本不平衡导致的基于多尺度特征平衡化的两阶段目标检测模型训练不收敛问题。
作为优选,所述步骤5.2中模型进行80次迭代,取损失函数最优迭代次数模型作为输出模型。
作为优选,所述步骤6将训练完成的基于多尺度的特征平衡化两阶段目标检测模型部署于边缘设备侧,用于提取三维目标检测框。
本发明的有益效果是:本发明直接使用摄像头作为主要的感知手段,避免使用激光雷达等价格高昂的传感器在三维目标检测系统中的应用,同时也直接规避了多传感器感知方法中存在的联合标定与数据同步问题,进一步降低传感器部署成本,减少了对激光雷达的依赖,有助于降低三维目标检测方法的成本,推动该技术在各领域中的应用。另外,算法模型通过离线训练、在线预测的方式部署到边缘设备,缓解设备计算压力的同时,提升边缘设备的智能化水平。
附图说明
图1为基于有监督单目深度估计的虚拟点云三维目标检测方法的流程图;
图2为目标检测推理流程图;
图3为三维空间DICE的映射图;
图4为尺度特征融合图;
图5为验证平台;
图6为虚拟点云目标检测结果。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
由于影响三维目标检测系统成本的主要因素在于激光雷达的价格,因此减少对激光雷达的依赖,有助于降低三维目标检测方法的成本,推动该技术在各领域中的应用。本发明为规避多传感器方法存在的联合标定与数据同步问题,进一步降低传感器部署成本。
作为一种实施例,采集现场数据,并使用该数据对本发明所提方法的有效性进行验证,以长安汽车为验证平台如图5所示,数据采集传感器包括1个彩色摄像机(具有罗技c920摄像头),1个激光雷达,1个GPS。基于有监督单目深度估计的虚拟点云三维目标检测方法流程图如图1所示。
步骤1、采集开放道路、园区、测试道路等不同场景图像与深度信息,使用单目摄像头采集场景RGB图像;构成RGB图像与深度图一一对应的数据集用于单目深度估计模型训练;数据集的RGB图像与深度图的尺寸保持一致,均为600×400,采样频率为10Hz;将单目RGB图像信息作为训练数据,将深度信息作为标签,同时将数据集随机划分为包含40000组数据的训练集、5000组数据的验证集和5000组数据的测试集。
步骤2、用步骤1获得的数据集训练单目深度估计模型:根据采集到的场景图像与深度信息,将单目RGB图像信息作为训练数据,将深度信息作为标签,同时将数据集划分为包含40000组数据的训练集、5000组数据的验证集和5000组数据的测试集;使用单目深度估计模型进行有监督的权重参数微调训练,具体步骤如下:
步骤2.1采用预训练的单目深度估计网络进行模型训练,固定单目深度估计模型中卷积层倒数第一层之前的所有权重参数,针对最后一层卷积层和输出层进行权重参数训练;
步骤2.2通过训练200次,借助Adam优化器对单目深度估计网络权重系数的训练进行优化。当单目深度估计模型在各项评价指标均方根误差(RMSE),对数误差(log10),相对误差(Rel)三个指标均趋于稳定,选取该模型作为训练结果;本实施例中单目深度估计模型经过200次迭代,在第182次迭代时单目深度估计模型的测试衡量指标RMSE=0.240,log10=2.542,Rel=0.144达到最优值,选取该模型作为训练结果,获得通过图像推理出深度图的单目深度估计模型;
步骤3、将由步骤2获得的单目深度估计模型的最优权重参数,将单目深度估计模型的权重系数数固化并部署到包含GPU和Docker容器的边缘设备;GPU提供算力支撑,Docker容器提供模型部署环境;边缘设备包含一台单目工业摄像机,相机为边缘设备提供持续的图像信号,其中模型权重参数固化并部署到包含GPU和Docker容器的边缘设备,并与单目摄像头构成边缘深度感知前端。通过采集到的单目RGB图像作为模型输入I,推理深度信息D
Figure 412406DEST_PATH_IMAGE040
上式中,D为深度图中的深度信息,W为图像的宽,h为图像的高,R为实数空间;
步骤4、通过由步骤3获得的边缘感知前端,将RGB图像推理得到深度图,随后通过像素空间到三维空间的映射函数,将深度图中每个二维像素点
Figure DEST_PATH_IMAGE041
映射到三维空间坐标系得到虚拟点云点
Figure 35148DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
上式中,
Figure 104604DEST_PATH_IMAGE005
为旋转矩阵、
Figure 191509DEST_PATH_IMAGE044
为平移矩阵、
Figure DEST_PATH_IMAGE045
为相机焦距、
Figure 806161DEST_PATH_IMAGE008
为焦距在像素平面的横坐标轴数值、
Figure 509675DEST_PATH_IMAGE046
为焦距在像素平面的纵坐标轴数值、
Figure DEST_PATH_IMAGE047
为像素平面原点横坐标轴数值、
Figure 120172DEST_PATH_IMAGE048
为像素平面原点纵坐标轴数值、
Figure DEST_PATH_IMAGE049
为深度图像素坐标系中的横坐标、
Figure 530425DEST_PATH_IMAGE050
为深度图像素坐标系中的纵坐标;
Figure DEST_PATH_IMAGE051
上式中,L指虚拟点云集合数据,一个虚拟点云集合LN个虚拟点云点构成;通过上述步骤,构建基于虚拟点云和标签信息的目标检测数据集,用于三维目标检测模型的训练。
步骤5、将由步骤4得到的虚拟点云目标检测数据集,用于训练基于多尺度特征平衡化两阶段目标检测模型,具体步骤如下:
构建基于特征平衡化的候选框生成网络,提取虚拟点云的候选检测框和前景背景分割特征;构建特征平衡化的网络参数初始化策略,根据正负样本不平衡程度对偏置量参数进行赋值:
Figure 565246DEST_PATH_IMAGE052
其中,
Figure 959318DEST_PATH_IMAGE016
为初始化正样本权重,
Figure DEST_PATH_IMAGE053
为负样本权重;假设样本种类数量为
Figure 918047DEST_PATH_IMAGE054
,正样本数量为
Figure DEST_PATH_IMAGE055
,负样本数量为
Figure 166495DEST_PATH_IMAGE020
构建基于多尺度特征的区域卷积神经网络,用基于多尺度特征的区域卷积神经网络在候选框中选择最优三维检测结果;其中,多尺度策略将获得的前景背景分割特征与虚拟点云特征进行多尺度采样,然后通过编码网络将特征进行融合:
Figure 654108DEST_PATH_IMAGE056
上式中,
Figure DEST_PATH_IMAGE057
表示编码网络输出的特征,
Figure 253585DEST_PATH_IMAGE058
表示编码网络,
Figure DEST_PATH_IMAGE059
表示尺度下的分割特征图,
Figure 16005DEST_PATH_IMAGE060
表示尺度下的虚拟点云特征图,
Figure DEST_PATH_IMAGE061
表示缩放尺度因子;通过下采样方式对特征进行不同尺度的特征提取。
同时,构建三维空间DICE系数的损失函数,该函数通过对三维空间的解耦实现不同二维坐标系下的特征分解,避免特征不平衡对模型训练过程的影响:
Figure 666429DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
上式中,
Figure 249245DEST_PATH_IMAGE064
表示估计为正样本的点云和真实正样本点云分别投影在
Figure DEST_PATH_IMAGE065
平面上的交集,
Figure 883488DEST_PATH_IMAGE066
表示在
Figure 652861DEST_PATH_IMAGE065
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure DEST_PATH_IMAGE067
表示估计为正样本的点云和真实正样本点云分别投影在
Figure 672639DEST_PATH_IMAGE068
平面上的交集,
Figure 298792DEST_PATH_IMAGE069
表示在
Figure DEST_PATH_IMAGE070
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 358015DEST_PATH_IMAGE071
表示估计为正样本的点云和真实正样本点云分别投影在
Figure DEST_PATH_IMAGE072
平面上的交集,
Figure 196658DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 70942DEST_PATH_IMAGE039
指基于三维空间DICE系数的虚拟点云数据;获得三维目标检测网络模型。
将虚拟点云与目标检测框标签输入到基于多尺度的特征平衡化两阶段目标检测模型的第一阶段网络,多尺度融合过程如图4所示,将图像按照四种缩放尺度进行缩放,本实施例中基于多尺度的特征平衡化两阶段目标检测模型经过40次迭代,在第36次迭代时三维空间DICE系数的损失函数值趋于最优值0.874,得到基于多尺度特征平衡化的候选框提取网络。
将由基于多尺度的特征平衡化两阶段目标检测模型的第一阶段网络得到的候选框特征、虚拟点云和目标检测框标签输入到基于多尺度的特征平衡化两阶段目标检测模型的第二阶段网络,通过改进的损失函数优化训练过程,其改进结果为:三维空间DICE如图3所示,本实施例中基于多尺度的特征平衡化两阶段目标检测模型经过80次迭代,在第71次迭代时三维空间DICE系数的损失函数趋于最优值1.273,得到基于特征平衡化的区域卷积神经网络用于输出三维检测框检测结果。
步骤6、将由步骤5获得的基于多尺度特征平衡化两阶段目标检测模型部署到边缘设备上,根据由步骤4得到的虚拟点云推理得到三维目标检测结果(与步骤4得到的虚拟点云共同构成基于虚拟点云的目标检测网络,得到基于虚拟点云的三维目标检测框),推理流程如图2所示;检测结果如图6所示,其中第一行为RGB图像与三维检测框标签信息,第二行高线束激光雷达采集真实点云的三维检测结果,第三行为虚拟点云检测结果;本发明在IOU为70%的检测任务中3D检测精度达到76.22%,该结果接近于使用真实点云检测的精度81.66%,本发明可在一定程度上替代激光雷达获的真实场景下的3D目标检测结果。

Claims (9)

1.一种基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于,包括以下步骤:
步骤1、使用激光雷达进行测量,采集场景的深度信息;使用单目摄像头采集场景RGB图像;构成RGB图像与深度图一一对应的数据集;
步骤2、用步骤1获得的数据集训练单目深度估计模型:根据采集到的场景图像与深度信息,将单目RGB图像信息作为训练数据,将深度信息作为标签,使用单目深度估计模型进行有监督的权重参数微调训练;固定单目深度估计模型中卷积层倒数第一层之前的所有权重参数,针对最后一层卷积层和输出层进行权重参数训练;
步骤3、通过步骤2中获得的单目深度估计模型的最优权重系数,将单目深度估计模型的权重系数固化并部署到边缘设备,同时根据摄像头采集单目RGB图像作为模型输入I,推理深度信息D
Figure DEST_PATH_IMAGE001
上式中,D为深度图中的深度信息,W为图像的宽,h为图像的高,R为实数空间;
步骤4、通过步骤3中获得的深度信息D构建稠密的虚拟点云;其中,借助像素空间到三维空间的映射关系,将深度图中每个二维像素点
Figure 687161DEST_PATH_IMAGE002
映射到三维空间坐标系得到虚拟点云点:
Figure DEST_PATH_IMAGE003
上式中,
Figure 745247DEST_PATH_IMAGE004
为旋转矩阵、
Figure DEST_PATH_IMAGE005
为平移矩阵、
Figure 56142DEST_PATH_IMAGE006
为相机焦距、
Figure DEST_PATH_IMAGE007
为焦距在像素平面的横坐标轴数值、
Figure 903881DEST_PATH_IMAGE008
为焦距在像素平面的纵坐标轴数值、
Figure DEST_PATH_IMAGE009
为像素平面原点横坐标轴数值、
Figure 859199DEST_PATH_IMAGE010
为像素平面原点纵坐标轴数值、
Figure DEST_PATH_IMAGE011
为深度图像素坐标系中的横坐标、
Figure 212820DEST_PATH_IMAGE012
为深度图像素坐标系中的纵坐标;
Figure DEST_PATH_IMAGE013
上式中,L指虚拟点云集合,一个虚拟点云集合L由N个虚拟点云点点构成;
构建包含虚拟点云和标签信息的目标检测数据集,利用目标检测数据集训练三维目标检测模型;
步骤5、通过步骤4中获得的目标检测数据集,训练基于多尺度的特征平衡化两阶段目标检测模型;
步骤6、将由步骤5获得的基于多尺度的特征平衡化两阶段目标检测模型部署到边缘设备,与步骤4得到的虚拟点云共同构成基于虚拟点云的目标检测网络,得到基于虚拟点云的三维目标检测框。
2.根据权利要求1所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于,所述步骤5具体包括如下步骤:
步骤5.1、构建基于特征平衡化的候选框生成网络,提取虚拟点云的候选检测框和前景背景分割特征;同时构建特征平衡化的网络参数初始化策略,根据正负样本不平衡程度对偏置量参数进行赋值:
Figure 932383DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为初始化正样本权重,
Figure 272229DEST_PATH_IMAGE016
为负样本权重;假设样本种类数量为
Figure DEST_PATH_IMAGE017
,正样本数量为
Figure 393637DEST_PATH_IMAGE018
,负样本数量为
Figure DEST_PATH_IMAGE019
步骤5.2、构建基于多尺度特征的区域卷积神经网络,用基于多尺度特征的区域卷积神经网络在候选框中选择最优三维检测结果;其中,多尺度策略将步骤5.1中获得的前景背景分割特征与虚拟点云特征进行多尺度采样,然后通过编码网络将特征进行融合:
Figure 652580DEST_PATH_IMAGE020
上式中,
Figure DEST_PATH_IMAGE021
表示编码网络输出的特征,
Figure 813434DEST_PATH_IMAGE022
表示编码网络,
Figure DEST_PATH_IMAGE023
表示尺度下的分割特征图,
Figure 5906DEST_PATH_IMAGE024
表示尺度下的虚拟点云特征图,
Figure DEST_PATH_IMAGE025
表示缩放尺度因子;通过下采样方式对特征进行不同尺度的特征提取;
同时,构建三维空间DICE系数的损失函数:
Figure 794870DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
上式中,
Figure 631239DEST_PATH_IMAGE028
表示估计为正样本的点云和真实正样本点云分别投影在
Figure DEST_PATH_IMAGE029
平面上的交集,
Figure 325395DEST_PATH_IMAGE030
表示在
Figure DEST_PATH_IMAGE031
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 131677DEST_PATH_IMAGE032
表示估计为正样本的点云和真实正样本点云分别投影在
Figure DEST_PATH_IMAGE033
平面上的交集,
Figure 916093DEST_PATH_IMAGE034
表示在
Figure DEST_PATH_IMAGE035
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 782418DEST_PATH_IMAGE036
表示估计为正样本的点云和真实正样本点云分别投影在
Figure DEST_PATH_IMAGE037
平面上的交集,
Figure 963869DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
平面估计为正样本的点云和真实正样本点云的元素个数;
Figure 449208DEST_PATH_IMAGE040
指基于三维空间DICE系数的虚拟点云数据;获得三维目标检测网络模型。
3.根据权利要求1所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤2中单目深度估计模型使用自主构建的自动驾驶数据集进行模型参数的微调,通过合理的计算资源扩大微调范围。
4.根据权利要求1所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤3中训练完成的单目深度估计模型部署在边缘计算设备侧,用于生成深度图。
5.根据权利要求1所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于,所述步骤4中通过获得的深度信息D构建稠密的虚拟点云的方式为:将深度图映射到三维空间得到虚拟点云。
6.根据权利要求2所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤5.1将特征平衡化的网络参数初始化策略用于模型偏置参数初始化。
7.根据权利要求2所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤5.2中在采样过程中将虚拟点云特征划分为1、2、4和8这四个缩放尺度。
8.根据权利要求2所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤5.2中构建三维空间DICE系数的损失函数,用于缓解正负样本不平衡导致的基于多尺度的特征平衡化两阶段目标检测模型训练不收敛。
9.根据权利要求2所述基于有监督单目深度估计的虚拟点云三维目标检测方法,其特征在于:所述步骤5将训练完成的基于多尺度的特征平衡化两阶段目标检测模型部署于边缘设备侧,用于提取三维目标检测框。
CN202011170037.0A 2020-10-28 2020-10-28 基于有监督单目深度估计的虚拟点云三维目标检测方法 Active CN112001958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011170037.0A CN112001958B (zh) 2020-10-28 2020-10-28 基于有监督单目深度估计的虚拟点云三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011170037.0A CN112001958B (zh) 2020-10-28 2020-10-28 基于有监督单目深度估计的虚拟点云三维目标检测方法

Publications (2)

Publication Number Publication Date
CN112001958A true CN112001958A (zh) 2020-11-27
CN112001958B CN112001958B (zh) 2021-02-02

Family

ID=73475517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011170037.0A Active CN112001958B (zh) 2020-10-28 2020-10-28 基于有监督单目深度估计的虚拟点云三维目标检测方法

Country Status (1)

Country Link
CN (1) CN112001958B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365498A (zh) * 2020-12-10 2021-02-12 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112883790A (zh) * 2021-01-15 2021-06-01 惠州市德赛西威汽车电子股份有限公司 一种基于单目摄像头的3d物体检测方法
CN113689483A (zh) * 2021-07-23 2021-11-23 浙江零跑科技股份有限公司 一种基于单目摄像头和激光雷达的测距方法
CN114332385A (zh) * 2021-11-23 2022-04-12 南京国图信息产业有限公司 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法
CN114445661A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于边缘计算的嵌入式图像识别方法
CN114692720A (zh) * 2022-02-25 2022-07-01 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114966733A (zh) * 2022-04-21 2022-08-30 北京福通互联科技集团有限公司 基于激光阵列和单目摄像机的肉牛立体深度图像采集系统
WO2022242416A1 (zh) * 2021-05-21 2022-11-24 北京百度网讯科技有限公司 点云数据的生成方法和装置
CN116030023A (zh) * 2023-02-02 2023-04-28 泉州装备制造研究所 一种点云检测方法及系统
CN116778262A (zh) * 2023-08-21 2023-09-19 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN116797625A (zh) * 2023-07-20 2023-09-22 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
WO2024114041A1 (zh) * 2022-12-02 2024-06-06 深圳市普渡科技有限公司 定位方法、装置、机器人以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833786A (zh) * 2010-04-06 2010-09-15 清华大学 三维模型的捕捉及重建方法和系统
CN102314683A (zh) * 2011-07-15 2012-01-11 清华大学 一种非平面图像传感器的计算成像方法和成像装置
CN102708569A (zh) * 2012-05-15 2012-10-03 东华大学 基于svm模型的单目红外图像深度估计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279989B (zh) * 2013-05-30 2016-05-04 北京航天控制仪器研究所 一种三维激光成像系统平面点云数据三角化处理方法
CN108053481B (zh) * 2017-12-26 2021-11-30 深圳市易尚展示股份有限公司 三维点云法向量的生成方法、装置和存储介质
CN111462311B (zh) * 2020-03-31 2023-10-24 北京小米松果电子有限公司 全景图生成方法及装置、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833786A (zh) * 2010-04-06 2010-09-15 清华大学 三维模型的捕捉及重建方法和系统
CN102314683A (zh) * 2011-07-15 2012-01-11 清华大学 一种非平面图像传感器的计算成像方法和成像装置
CN102708569A (zh) * 2012-05-15 2012-10-03 东华大学 基于svm模型的单目红外图像深度估计方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365498A (zh) * 2020-12-10 2021-02-12 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112365498B (zh) * 2020-12-10 2024-01-23 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112883790A (zh) * 2021-01-15 2021-06-01 惠州市德赛西威汽车电子股份有限公司 一种基于单目摄像头的3d物体检测方法
WO2022151664A1 (zh) * 2021-01-15 2022-07-21 惠州市德赛西威汽车电子股份有限公司 一种基于单目摄像头的3d物体检测方法
WO2022242416A1 (zh) * 2021-05-21 2022-11-24 北京百度网讯科技有限公司 点云数据的生成方法和装置
CN113689483A (zh) * 2021-07-23 2021-11-23 浙江零跑科技股份有限公司 一种基于单目摄像头和激光雷达的测距方法
CN113689483B (zh) * 2021-07-23 2024-01-12 浙江零跑科技股份有限公司 一种基于单目摄像头和激光雷达的测距方法
CN114332385A (zh) * 2021-11-23 2022-04-12 南京国图信息产业有限公司 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法
CN114445661A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于边缘计算的嵌入式图像识别方法
CN114445661B (zh) * 2022-01-24 2023-08-18 电子科技大学 一种基于边缘计算的嵌入式图像识别方法
CN114692720A (zh) * 2022-02-25 2022-07-01 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114966733A (zh) * 2022-04-21 2022-08-30 北京福通互联科技集团有限公司 基于激光阵列和单目摄像机的肉牛立体深度图像采集系统
WO2024114041A1 (zh) * 2022-12-02 2024-06-06 深圳市普渡科技有限公司 定位方法、装置、机器人以及存储介质
CN116030023A (zh) * 2023-02-02 2023-04-28 泉州装备制造研究所 一种点云检测方法及系统
CN116797625A (zh) * 2023-07-20 2023-09-22 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
CN116797625B (zh) * 2023-07-20 2024-04-19 无锡埃姆维工业控制设备有限公司 一种单目三维工件位姿估计方法
CN116778262A (zh) * 2023-08-21 2023-09-19 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN116778262B (zh) * 2023-08-21 2023-11-10 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统

Also Published As

Publication number Publication date
CN112001958B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112001958B (zh) 基于有监督单目深度估计的虚拟点云三维目标检测方法
CN110070615B (zh) 一种基于多相机协同的全景视觉slam方法
CN112132972B (zh) 一种激光与图像数据融合的三维重建方法及系统
CN105667518B (zh) 车道检测的方法及装置
CN108805906A (zh) 一种基于深度图的运动障碍物检测及定位方法
CN108802785A (zh) 基于高精度矢量地图和单目视觉传感器的车辆自定位方法
CN107560592B (zh) 一种用于光电跟踪仪联动目标的精确测距方法
WO2021017211A1 (zh) 一种基于视觉的车辆定位方法、装置及车载终端
CN113050074B (zh) 无人驾驶环境感知中相机与激光雷达标定系统及标定方法
CN114325634A (zh) 一种基于激光雷达的高鲁棒性野外环境下可通行区域提取方法
CN114035187B (zh) 一种自动驾驶系统的感知融合方法
CN114217665A (zh) 一种相机和激光雷达时间同步方法、装置及存储介质
CN114298151A (zh) 一种基于点云数据与图像数据融合的3d目标检测方法
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN113643345A (zh) 一种基于双光融合的多目道路智能识别方法
CN113947724A (zh) 一种基于双目视觉的线路覆冰厚度自动测量方法
CN114295139A (zh) 一种协同感知定位方法及系统
CN113327296A (zh) 基于深度加权的激光雷达与相机在线联合标定方法
CN116403191A (zh) 一种基于单目视觉的三维车辆跟踪方法、装置和电子设备
CN118429524A (zh) 基于双目立体视觉的车辆行驶环境建模方法及系统
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和系统
CN115187959B (zh) 一种基于双目视觉的飞行汽车山地着陆方法及系统
CN115184909B (zh) 一种基于目标检测的车载多谱系激光雷达标定系统与方法
CN116862829A (zh) 一种覆冰环境下架空线路弧垂监测方法及装置
CN115965847A (zh) 交叉视角下多模态特征融合的三维目标检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Fu Junwei

Inventor after: Meng Yuwei

Inventor after: Yu Rongdong

Inventor after: Liu Xuanyi

Inventor after: Wu Linfeng

Inventor after: Wang Dou

Inventor before: Fu Junwei

Inventor before: Meng Yuwei

Inventor before: Yu Rongdong

Inventor before: Liu Xuanyi

Inventor before: Wu Linfeng

Inventor before: Wang Dou

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220815

Address after: Room 307, No. 32, Gaoji Street, Xihu District, Hangzhou City, Zhejiang Province, 310002

Patentee after: Zhejiang Zheneng Digital Technology Co., Ltd.

Patentee after: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.

Address before: 5 / F, building 1, No. 2159-1, yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.