CN109523552B - 基于视锥点云的三维物体检测方法 - Google Patents

基于视锥点云的三维物体检测方法 Download PDF

Info

Publication number
CN109523552B
CN109523552B CN201811245343.9A CN201811245343A CN109523552B CN 109523552 B CN109523552 B CN 109523552B CN 201811245343 A CN201811245343 A CN 201811245343A CN 109523552 B CN109523552 B CN 109523552B
Authority
CN
China
Prior art keywords
point cloud
dimensional
bounding box
network
dimensional object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811245343.9A
Other languages
English (en)
Other versions
CN109523552A (zh
Inventor
沈大勇
王晓
刘胜
胡加媛
王杰
翟天亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Academy Of Intelligent Industries
Original Assignee
Qingdao Academy Of Intelligent Industries
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Academy Of Intelligent Industries filed Critical Qingdao Academy Of Intelligent Industries
Priority to CN201811245343.9A priority Critical patent/CN109523552B/zh
Publication of CN109523552A publication Critical patent/CN109523552A/zh
Application granted granted Critical
Publication of CN109523552B publication Critical patent/CN109523552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Abstract

本发明公开了一种基于视锥点云的三维物体检测方法,采集RGB图像和点云图像并进行标注,获取标注后的RGB图像数据集和点云图像数据集,将数据集作为训练样本和测试样本。主要由三个网络组成:基于二维物体检测的视锥点云抽取网络、基于Point net三维物体实例分割网络以及基于偏移残差的三维包围盒回归网络。三个网络依次训练,前一个网络的训练输出作为下一个网络的输入。设置各神经网络模型的超参数,通过Tensorflow训练三维物体检测网络模型,当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时,生成训练模型;将点云图像数据集输入至训练完毕的模型中,输出三维物体检测结果。本发明比现有三维物体检测方法更完善、难度更高。

Description

基于视锥点云的三维物体检测方法
技术领域
本发明涉及模式识别、机器学习及计算机视觉技术领域,特别涉及基于视锥点云的三维物体检测方法。
背景技术
三维物体检测是模式识别和计算机视觉的一个重要研究领域,同时也是解决很多高层视觉任务的核心问题,物体检测的研究为高层视觉任务(例如:行为识别、场景理解等)的解决奠定了基础。它在人们的日常生活中以及工业生产中有着广泛的应用,如:智能视频监控、无人驾驶、智能机器人、智能交通以及增强现实等。
在过去的几年里,随着二维物体检测方法的日趋完善以及深度相机的普及,三维物体检测技术也获得了突飞猛进的发展。三维物体检测通过识别和定位三维物体,得到物体的三维信息,输出物体的三维包围盒来表示物体在真实世界中的位置。三维包围盒由其大小l、w、h,中心点的坐标cx、cy、cz以及方向角yaw、roll、pitch来决定。其中yaw、roll、pitch是相对于每个类别预定义的姿态的旋转角度。在已有的研究工作中,无人驾驶三维物体检测和室内环境的场景理解三维物体检测,其三维包围盒的自由度仅仅为7个(l、w、h、cx、cy、cz、yaw),因为学者们仅仅考虑了车辆和室内环境中的物体只有航向角yaw,而没有俯仰角pitch和翻滚角roll。但在我们所研究的物流拣选和装卸领域,我们必须考虑物体精确的姿态,以达到预期的效果,因此我们需要考虑物体的俯仰角pitch和翻滚角roll,输出9个自由度的三维物体包围盒。
发明内容
为解决上述技术问题,本发明提供了基于视锥点云的三维物体检测方法,以达到检测更完善,难度更高的目的。
为达到上述目的,本发明的技术方案如下:
基于视锥点云的三维物体检测方法,包括如下步骤:
步骤一:对RGB图像和点云图像进行标注,获取标注后的RGB图像数据集和点云图像数据集,将RGB图像数据集和点云图像数据集作为基于视锥点云的三维物体检测网络模型的训练样本和测试样本;
步骤二:构建基于二维物体检测的视锥点云抽取网络,将RGB图像数据集作为基于二维物体检测的视锥点云抽取网络的输入,利用RGB信息来对物体进行检测,从而获取感兴趣物体的二维包围盒,再通过对齐和配准后RGB图像与深度图像,得到检测出来的二维物体对应的视锥点云数据;
步骤三:构建基于Point net三维物体实例分割网络,将步骤二获取的视锥点云数据作为基于Point net三维物体实例分割网络的输入,利用Point net网络对物体进行二元的实例分割,获得实例分割后的物体点云数据;
步骤四:构建基于偏移残差的三维包围盒回归网络,将步骤三获得的实例分割后的物体点云数据作为基于偏移残差的三维包围盒回归网络的输入,回归物体三维包围盒的八个顶点与其真实值之间的偏移量,通过计算即可得物体的三维包围盒对应的八个顶点,从而得到其三维包围盒;
步骤五:将RGB图像数据集和点云图像数据集输入至步骤四训练完毕的三维物体检测网络模型中,输出三维物体检测结果。
上述方案中,所述步骤一中的RGB图像数据集和点云图像数据集均包括真实数据集和虚拟数据集两部分,真实数据集是利用多款深度相机在实验室场地环境下采集不同品类的RGB图和深度图;虚拟数据集是利用Blender工具人工生成不同场景、不同天气下的不同品类的RGB图和深度图。
上述方案中,所述步骤一中,真实数据集的构建还包括:对RGB图像和深度图像进行对齐和配准,以获得需要的点云数据;利用LabelImg对RGB图像进行标注以及利用LabelFusion工具对点云数据进行标注;虚拟数据集的构建中还包括深度图的计算以及数据集自动标注过程。
上述方案中,所述步骤二中,基于二维物体检测的视锥点云抽取网络的构建方法为:
a)通过特征提取网络提取图片特征,形成整张图片的Feature Map;
b)RPN网络以整张图片Feature Map为输入,输出一系列矩形的候选区域;
c)使用Fast-RCNN首先对感兴趣区域进行池化操作,再通过全连接层进行分类和回归,获得最终的检测结果;
d)利用二维物体检测的结果,通过对齐后的RGB图像和深度图像,可以得到对应物体的视锥点云。
上述方案中,所述步骤三中,基于Point net三维物体实例分割网络的构建方法为:
a)使用Point net网络模型作为特征提取模型,RGB图和深度图经过配准和对齐后得到的点云图像为其输入,首先经过一个T-Net操作,以实现点云特征的对齐,经过七层MLP层得到每个点的维度为2048的全局特征,其中,在第五层MLP操作后,对所得到的维度为128的局部特征也做了一个T-Net变换,接着对n×2048的特征矩阵采用最大池化的操作,得到图像的全局特征;
b)将a)中每层MLP的结果看作为视锥点云中每个点对应的局部特征,将其与a)中得到的复制n份后的全局特征以及利用二维物体检测得到的先验知识one-hot向量进行连接,再经过3层MLP层得到实例分割结果,获得我们感兴趣的物体的点云数据;
基于Pointnet三维物体实例分割网络的损失函数为:
Figure BDA0001840394010000031
其中
Figure BDA0001840394010000032
表示预测为感兴趣物体的概率,
Figure BDA0001840394010000033
表示预测为背景的概率。
上述方案中,所述步骤四中,基于偏移残差的三维包围盒回归网络的构建方法为:
a)利用步骤三中得到的实例分割后物体点云数据,经过一个基于Point net的特征抽取网络A,得到每个点的局部特征和全局特征,得到全局特征后,输出有两个不同分支操作:第一个分支是进入基于偏移残差的三维包围盒回归网络B,第二个分支是进入直接回归三维包围盒的八个顶点的网络C,然后将这连个分支的输出结果进行对比;
b)第一个分支,是将特征抽取网络A得到的全局特征和局部特征以及二维物体检测得到的先验知识one-hot向量进行连接,再经过5层MLP层操作,输出点云中第i个点预测包围盒8个顶点相对第i个点坐标的偏移值
Figure BDA0001840394010000034
以及第i个点所预测的三维包围盒的得分pi,选取所有点中预测的得分最高的三维包围盒作为网络的输出;然后通过真实值与偏移量计算得出预测的三维包围盒的八个顶点坐标Ci,其计算方法如下:
Figure BDA0001840394010000035
c)第二个分支是直接将特征抽取网络A得到的全局特征与二维检测得到的先验知识one-hot向量进行连接,经过3个MLP层操作,得到预测的三维包围盒的八个顶点坐标作为网络的输出;
基于偏移残差的三维包围盒回归网络B的损失函数为:
Figure BDA0001840394010000036
其中,m是实例分割点云的数目;offset_ratioi是第i个点预测的包围盒的偏移距离比率,偏移距离比率即预测顶点与真实顶点的偏移距离和真实包围盒对角线长度的比例,其计算方法为:
Figure BDA0001840394010000037
Lconf是预测包围盒置信度的损失,其计算方法为:
Figure BDA0001840394010000041
其中,m是实例分割点云的数目,cpred代表预测的物体三维包围盒的置信度,cgt代表物体真实三维包围盒的置信度。
对于直接回归三维包围盒的八个顶点的网络C的损失函数为:
Lreg=offset_ratio。
通过上述技术方案,本发明提供的基于视锥点云的三维物体检测方法采集RGB图像和点云图像并进行标注,获取标注后的RGB图像数据集和点云图像数据集,将数据集作为基于视锥点云的三维物体检测神经网络模型的训练样本和测试样本。基于视锥点云的三维物体检测网络模型主要由三个网络组成:基于二维物体检测的视锥点云抽取网络、基于Point net三维物体实例分割网络以及基于偏移残差的三维包围盒回归网络。三个网络依次训练,前一个网络的训练输出作为下一个网络的输入。设置各神经网络模型的超参数,通过Tensorflow训练三维物体检测网络模型,当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时,生成训练模型;将点云图像数据集输入至训练完毕的模型中,输出三维物体检测结果。本发明比现有三维物体检测方法更完善、难度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为基于视锥点云的三维物体检测网络结构图;
图2为基于二维物体检测的视锥点云抽取网络结构图;
图3为基于Point net三维物体实例分割网络结构图;
图4为基于偏移残差的三维包围盒回归网络结构图;
图5为本实施例中基于Point net三维物体实例分割结果展示;
图6为本实施例中基于视锥点云的三维物体检测方法结果展示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明中,RGB图指的是通过红(R)、绿(G)、蓝(B)参数值表示的图像,其通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加得到各式各样的颜色;深度图是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道,其类似于灰度图像,只是深度图的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系,点云图像就是指RGB图像和Depth图像通过对齐和配准之后得到的图像。
如图1所示,基于视锥点云的三维物体检测网络模型,包括基于二维物体检测的视锥点云抽取网络、基于Point net三维物体实例分割网络、基于偏移残差三维包围盒回归网络三个子网络。具体检测方法包括:
步骤一:对RGB图像和点云图像进行标注,获取标注后的RGB图像数据集和点云数据集,将数据集作为基于视锥点云的三维物体检测网络模型的训练样本和测试样本;
步骤二:构建基于二维物体检测的视锥点云抽取网络,如图2所示,将RGB图像数据集作为二维物体检测的视锥点云抽取网络的输入,利用丰富的RGB信息来对物体进行检测,从而获取感兴趣物体的二维包围盒,再通过对齐和配准后的RGB图像与深度图像,得到检测出来的二维物体对应的视锥点云;
步骤三:构建基于Point net三维物体实例分割网络,如图3所示,将步骤二获取的视锥点云数据作为基于Point net三维物体实例分割网络的输入,利用Point net网络对物体进行二元的实例分割,获得实例分割后的物体点云数据;
步骤四:构建基于偏移残差的三维包围盒回归网络,如图4所示,将步骤三获得的实例分割后的物体点云数据作为基于偏移残差的三维包围盒回归网络的输入,回归点云中每个点预测的包围盒8个顶点相对该点坐标的偏移值以及该点所预测的三维包围盒的得分,选取得分最高的三维包围盒,再通过计算即可得物体的9自由度三维包围盒对应的八个顶点,从而得到其三维包围盒;
步骤五:将RGB图像数据集和点云图像数据集输入至训练完毕的三维物体检测网络模型中,输出三维物体检测结果。
基于视锥点云的三维物体检测方法的一个实施例中,步骤一中的数据集包括真实数据集和虚拟数据集两部分。其中,真实数据集是利用奥比中光Astra Pro、英特尔SR300等多款深度相机在实验室场地环境下采集不同品类的RGB图和深度图,数据集中包括箱子、文件袋、塑包包裹、编织袋四种品类,包括地堆和货架两种分拣场景。虚拟数据集是利用Blender工具人工生成不同分拣场景、不同天气下不同品类的RGB图和深度图,数据集中包括箱子、文件袋、塑包包裹、编织袋四种品类,分拣筐、地堆、工厂、货架四种分拣场景,包括晴天、雾天两种天气。其中,第一种获取方法采用的人工标注的方式得到标注信息,利用LabelImg对RGB图像进行标注以及利用LabelFusion工具对点云数据进行标注;第二种方法的标注信息利用编程实现。
本实施例步骤一中的训练样本包含14151张已标注的真实数据集中RGB图像,36497张已标注的虚拟数据集中的RGB图像,测试样本包含1633张真实数据集中的RGB图像;本实施例步骤二三中的训练样本包含1116张已标注的真实数据集中点云图像,9000张已标注的虚拟数据集中的点云图像,对于真实数据集和虚拟数据集按照8:1:1的比例随机的划分训练集、验证集和测试集。
如上所述的基于视锥点云的三维物体检测方法的一个实施例中,步骤一中真实数据集中还包括对RGB图像和深度图像进行对齐和配准,以获得需要的点云数据。虚拟数据集中还包括深度图的计算以及数据集自动标注过程。
如上所述的基于视锥点云的三维物体检测方法的一个实施例中,步骤二中基于二维物体检测的视锥点云抽取网络(如图2所示)构建方法为:
a)通过特征提取网络如VGG16、ResNet-X等提取图片特征,形成整张图片的Feature Map;
b)RPN网络以整张图片Feature Map为输入,输出一系列矩形的候选区域;
c)使用Fast-RCNN首先对感兴趣区域进行池化操作,再通过全连接层进行分类和回归,获得最终的检测结果;
d)利用二维物体检测的结果,通过对齐后的RGB图像和深度图像,可以得到对应物体的视锥点云。
如上所述的基于视锥点云的三维物体检测方法的一个实施例中,步骤三中基于Point net三维物体实例分割网络(如图3所示)构建方法为:
a)使用Point net网络模型作为特征提取模型,RGB图和深度图经过配准和对齐后得到的点云图像为其输入,首先经过一个T-Net操作,以实现点云特征的对齐,经过七层MLP(多层感知机)层得到每个点的维度为2048的全局特征,其中,在第五层MLP操作后,对所得到的维度为128的局部特征也做了一个T-Net变换。经过七层MLP(多层感知机)层得到每个点的维度为2048的全局特征,接着对n×2048的特征矩阵采用最大池化的操作,得到图像的全局特征;
b)将a)中每层MLP的结果看作为视锥点云中每个点对应的局部特征,将其与a)中得到的复制n份后的全局特征以及利用二维检测结果的先验知识得到的one-hot向量进行连接,再经过3层MLP层得到实例分割结果,获得我们感兴趣的物体的点云数据。
基于Point net三维物体实例分割网络的损失函数为:
Figure BDA0001840394010000071
其中
Figure BDA0001840394010000072
表示预测为感兴趣物体的概率,
Figure BDA0001840394010000073
表示预测为背景的概率。
如上所述的基于视锥点云的三维物体检测方法,所述步骤四中,基于偏移残差的三维包围盒回归网络(如图4所示)构建方法为:
a)利用步骤三中得到的实例分割后物体点云数据,经过一个基于Point net的特征抽取网络A,得到每个点的局部特征和全局特征,得到全局特征后,输出有两个不同分支操作:第一个分支是进入基于偏移残差的三维包围盒回归网络B,第二个分支是进入直接回归三维包围盒的八个顶点的网络C,我们将这连个分支的输出结果进行对比;
b)第一个分支,是将特征抽取网络A得到的全局特征和局部特征以及二维物体检测得到的先验知识one-hot向量进行连接,再经过5层MLP层操作,输出点云中第i个点预测包围盒8个顶点相对第i个点坐标的偏移值
Figure BDA0001840394010000074
以及第i个点所预测的三维包围盒的得分pi,选取所有点中预测的得分最高的三维包围盒作为网络的输出;然后通过真实值与偏移量计算得出预测的三维包围盒的八个顶点坐标Ci,其计算方法如下:
Figure BDA0001840394010000075
c)第二个分支是直接将特征抽取网络A得到的全局特征与二维检测得到的先验知识one-hot向量进行连接,经过3个MLP层操作,得到预测的三维包围盒的八个顶点坐标作为网络的输出;
基于偏移残差的三维包围盒回归网络B的损失函数为:
Figure BDA0001840394010000076
其中,m是实例分割点云的数目;offset_ratioi是第i个点预测的包围盒的偏移距离比率,偏移距离比率即预测顶点与真实顶点的偏移距离和真实包围盒对角线长度的比例,其计算方法为:
Figure BDA0001840394010000077
Lconf是预测包围盒置信度的损失,其计算方法为:
Figure BDA0001840394010000078
其中,m是实例分割点云的数目,cpred代表预测的物体三维包围盒的置信度,cgt代表物体真实三维包围盒的置信度。
对于直接回归三维包围盒的八个顶点的网络C的损失函数为:
Lreg=offset_ratio。
基于深度学习的RGB-D三维物体检测方法的一个实施例中,步骤二中通过Caffe2训练二维物体检测卷积神经网络模型方法为:本文使用ImageNet数据集预训练的分类模型初始化网络模型,利用真实数据集训练网络模型。其初始化学习率设置为0.02,最大迭代次数为80k,并在30k和40k分别以0.1倍递减,batch size大小为2张图片,且权值衰减率为0.0005;
基于深度学习的RGB-D三维物体检测方法的一个实施例中,步骤三中通过TensorFlow训练三维物体检测神经网络模型方法为:使用Point net网络预训练神经网络模型为三维物体检测神经网络进行参数初始化。
基于深度学习的RGB-D三维物体检测方法的一个实施例中,步骤四中通过TensorFlow训练基于偏移残差的三维包围盒回归网络模型方法为:使用Point net网络预训练神经网络模型为三维物体检测神经网络进行参数初始化。
在本实施例中步骤三、四中采用带动量参数为0.9的随机梯度下降训练模型,每一批的数据量为64条。实验采取变化的学习率进行学习,初始化学习率为0.0002,针对人工生成的虚拟训练集由于其数据量比较大在7万条左右,每训练70万个数据(即大约经过10个周期(epoch))学习率下降到原来的0.7倍,针对真实采集的数据集由于其数据量大约1万条左右,每训练20万个数据(也就是大约没经过20个周期(epoch))学习率下降到原来的0.7倍,以上两种情况均是学习率小于0.00001时停止下降。实验采用了早停止的策略,训练了200个周期(epoch)。为了减少模型初始化对结果的影响,实验对每一个实验在不同初始化下训练5次,将测试的精度平均值作为模型的最终结果。
如上所述的基于视锥点云的三维物体检测方法中,在训练阶段我们采用了三种方式来组成我们的训练数据。第一种是所有训练数据集均为真实数据集,第二种是将真实数据集和虚拟数据集混合后训练,第三种是在先在虚拟数据集上训练网络模型后,再用该网络模型训练真实数据集进行网络调优。
如图5所示为本实施例中真实数据集测试集中三维物体实例分割结果图,其中的包围框为标注的3D包围盒,灰色的点代表感兴趣的物体的点云数据,而黑色的点代表背景物体,可以看出,基于point net的点云实例分割网络可以很好的对视锥点云数据进行分割。
如表1所示,图中“训练集”一列中Real表示使用的训练数据全为真实数据,Syn+Real表示使用的训练数据集为真实数据集和虚拟数据集混合后得到的数据集,Syn+RealAdapted表示是网络模型先在虚拟数据集中训练得到神经网络参数后,再利用真实数据集对神经网络进行调优得到的模型,Syn表示使用的训练数据全为虚拟数据集;“测试集”一列中Real数据集代表利用真实数据集作为测试集,Syn数据集代表利用虚拟数据集作为测试集。从图中可以看出,基于Point net的点云实例分割网络在真实数据集中的平均测试精度能够达到87%左右。
表1基于Point net三维物体实例分割网络平均精度
Figure BDA0001840394010000091
如图6所示为本实施例中基于视锥点云的三维物体检测方法结果图,其中第一行表示的是基于二维物体检测的视锥点云抽取网络中的2D标注包围框;第二行是基于视锥点云的三维物体检测结果图,其中的包围框是三维物体检测出的物体的三维包围盒;第三行是基于视锥点云的三维物体检测网络中的3D标注包围盒。
如表2所示,为本实施例中测试样本的三维物体检测类别和准确率,表中“训练数据”一列中Real表示使用的训练数据全为真实数据集,Syn+Real表示使用的训练数据集为真实数据集和虚拟数据集混合后得到的数据集,Syn+Real Adapted表示是网络模型先在虚拟数据集中训练得到神经网络参数后,再利用真实数据集对神经网络进行调优得到的模型。
表2本实施例中测试样本的三维物体检测类别和准确率
Figure BDA0001840394010000092
从表中可以看出,在回归的平均精度方面,除了塑料包裹这个类别直接回归的比基于偏移残差回归的精度高了大约1%,其余的类别的回归平均精度均是基于偏移残差模型高于直接回归的模型,总体来讲,基于偏移残差的回归比直接回归的平均精度均值高了大约2.02%,说明基于偏移残差回归的优于直接回归。由于直接回归包围盒的模型,其网络输出是直接回归包围盒的8个顶点坐标,我们所回归的物体尺寸差异性比较大,因此直接回归具有很大的难度,回归的效果也比较差。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.基于视锥点云的三维物体检测方法,其特征在于,包括如下步骤:
步骤一:对RGB图像和点云图像进行标注,获取标注后的RGB图像数据集和点云图像数据集,将RGB图像数据集和点云图像数据集作为基于视锥点云的三维物体检测网络模型的训练样本和测试样本;
步骤二:构建基于二维物体检测的视锥点云抽取网络,将RGB图像数据集作为基于二维物体检测的视锥点云抽取网络的输入,利用RGB信息来对物体进行检测,从而获取感兴趣物体的二维包围盒,再通过对齐和配准后RGB图像与深度图像,得到检测出来的二维物体对应的视锥点云数据;
步骤三:构建基于Point net三维物体实例分割网络,将步骤二获取的视锥点云数据作为基于Point net三维物体实例分割网络的输入,利用Point net网络对物体进行二元的实例分割,获得实例分割后的物体点云数据;
步骤四:构建基于偏移残差的三维包围盒回归网络,将步骤三获得的实例分割后的物体点云数据作为基于偏移残差的三维包围盒回归网络的输入,回归物体三维包围盒的八个顶点与其真实值之间的偏移量,通过计算即可得物体的9自由度三维包围盒对应的八个顶点,从而得到其三维包围盒;
步骤五:将RGB图像数据集和点云图像数据集输入至步骤四训练完毕的三维物体检测网络模型中,输出三维物体检测结果;
其中,基于偏移残差的三维包围盒回归网络的构建方法为:
a)利用步骤三中得到的实例分割后物体点云数据,经过一个基于Point net的特征抽取网络A,得到每个点的局部特征和全局特征,得到全局特征后,输出有两个不同分支操作:第一个分支是进入基于偏移残差的三维包围盒回归网络B,第二个分支是进入直接回归三维包围盒的八个顶点的网络C,然后将这连个分支的输出结果进行对比;
b)第一个分支,是将特征抽取网络A得到的全局特征和局部特征以及二维物体检测得到的先验知识one-hot向量进行连接,再经过5层MLP层操作,输出点云中第i个点预测包围盒8个顶点相对第i个点坐标的偏移值
Figure FDA0003072469610000011
以及第i个点所预测的三维包围盒的得分Pi,选取所有点中预测的得分最高的三维包围盒作为网络的输出;然后通过真实值与偏移量计算得出预测的三维包围盒的八个顶点坐标Ci,其计算方法如下:
Figure FDA0003072469610000012
c)第二个分支是直接将特征抽取网络A得到的全局特征与二维检测得到的先验知识one-hot向量进行连接,经过3个MLP层操作,得到预测的三维包围盒的八个顶点坐标作为网络的输出;
基于偏移残差的三维包围盒回归网络B的损失函数为:
Figure FDA0003072469610000021
其中,m是实例分割点云的数目;offset_ratioi是第i个点预测的包围盒的偏移距离比率,偏移距离比率即预测顶点与真实顶点的偏移距离和真实包围盒对角线长度的比例,其计算方法为:
Figure FDA0003072469610000022
Lconf是预测包围盒置信度的损失,其计算方法为:
Figure FDA0003072469610000023
其中,m是实例分割点云的数目,cpred代表预测的物体三维包围盒的置信度,cgt代表物体真实三维包围盒的置信度;
对于直接回归三维包围盒的八个顶点的网络C的损失函数为:
Lreg=offset_ratio。
2.根据权利要求1所述的基于视锥点云的三维物体检测方法,其特征在于,所述步骤一中的RGB图像数据集和点云图像数据集均包括真实数据集和虚拟数据集两部分,真实数据集是利用多款深度相机在实验室场地环境下采集不同品类的RGB图和深度图;虚拟数据集是利用Blender工具人工生成不同场景、不同天气下的不同品类的RGB图和深度图。
3.根据权利要求2所述的基于视锥点云的三维物体检测方法,其特征在于,所述步骤一中,真实数据集的构建还包括:对RGB图像和深度图像进行对齐和配准,以获得需要的点云数据;利用LabelImg对RGB图像进行标注以及利用LabelFusion工具对点云数据进行标注;虚拟数据集的构建中还包括深度图的计算以及数据集自动标注过程。
4.根据权利要求1所述的基于视锥点云的三维物体检测方法,其特征在于,所述步骤二中,基于二维物体检测的视锥点云抽取网络的构建方法为:
a)通过特征提取网络提取图片特征,形成整张图片的Feature Map;
b)RPN网络以整张图片Feature Map为输入,输出一系列矩形的候选区域;
c)使用Fast-RCNN首先对感兴趣区域进行池化操作,再通过全连接层进行分类和回归,获得最终的检测结果;
d)利用二维物体检测的结果,通过对齐后的RGB图像和深度图像,可以得到对应物体的视锥点云。
5.根据权利要求1所述的基于视锥点云的三维物体检测方法,其特征在于,所述步骤三中,基于Point net三维物体实例分割网络的构建方法为:
a)使用Point net网络模型作为特征提取模型,RGB图和深度图经过配准和对齐后得到的点云图像为其输入,首先经过一个T-Net操作,以实现点云特征的对齐,经过七层MLP层得到每个点的维度为2048的全局特征,其中,在第五层MLP操作后,对所得到的维度为128的局部特征也做了一个T-Net变换,接着对n×2048的特征矩阵采用最大池化的操作,得到图像的全局特征;
b)将a)中每层MLP的结果看作为视锥点云中每个点对应的局部特征,将其与a)中得到的复制n份后的全局特征以及利用二维物体检测得到的先验知识one-hot向量进行连接,再经过3层MLP层得到实例分割结果,获得我们感兴趣的物体的点云数据;
基于Pointnet三维物体实例分割网络的损失函数为:
Figure FDA0003072469610000031
其中
Figure FDA0003072469610000032
表示预测为感兴趣物体的概率,
Figure FDA0003072469610000033
表示预测为背景的概率。
CN201811245343.9A 2018-10-24 2018-10-24 基于视锥点云的三维物体检测方法 Active CN109523552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811245343.9A CN109523552B (zh) 2018-10-24 2018-10-24 基于视锥点云的三维物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811245343.9A CN109523552B (zh) 2018-10-24 2018-10-24 基于视锥点云的三维物体检测方法

Publications (2)

Publication Number Publication Date
CN109523552A CN109523552A (zh) 2019-03-26
CN109523552B true CN109523552B (zh) 2021-11-02

Family

ID=65773537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811245343.9A Active CN109523552B (zh) 2018-10-24 2018-10-24 基于视锥点云的三维物体检测方法

Country Status (1)

Country Link
CN (1) CN109523552B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032962B (zh) * 2019-04-03 2022-07-08 腾讯科技(深圳)有限公司 一种物体检测方法、装置、网络设备和存储介质
CN110059608B (zh) * 2019-04-11 2021-07-06 腾讯科技(深圳)有限公司 一种物体检测方法、装置、电子设备和存储介质
CN110135289A (zh) * 2019-04-28 2019-08-16 北京天地玛珂电液控制系统有限公司 一种基于深度学习的煤矿井下智能应用云服务平台
CN110080326B (zh) * 2019-04-29 2021-11-16 北京拓疆者智能科技有限公司 一种卸料方法、控制器、挖掘机、电子设备及存储介质
CN110136181B (zh) * 2019-05-17 2021-08-20 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110222626B (zh) * 2019-06-03 2021-05-28 宁波智能装备研究院有限公司 一种基于深度学习算法的无人驾驶场景点云目标标注方法
CN110340738B (zh) * 2019-06-21 2020-05-22 武汉理工大学 一种基于pca的机器人拉丝高铁白车身工件精确标定方法
CN110287873B (zh) * 2019-06-25 2021-06-29 清华大学深圳研究生院 基于深度神经网络的非合作目标位姿测量方法、系统及终端设备
CN110310373B (zh) * 2019-06-28 2023-12-12 京东方科技集团股份有限公司 一种增强现实设备的图像处理方法和增强现实设备
CN110298345A (zh) * 2019-07-05 2019-10-01 福州大学 一种医学图像数据集的感兴趣区域自动标注方法
CN110390302A (zh) * 2019-07-24 2019-10-29 厦门大学 一种三维目标检测方法
CN110472534A (zh) * 2019-07-31 2019-11-19 厦门理工学院 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质
CN110633640A (zh) * 2019-08-13 2019-12-31 杭州电子科技大学 优化PointNet对于复杂场景的识别方法
CN110660062B (zh) * 2019-08-31 2022-10-18 南京理工大学 一种基于PointNet的点云实例分割方法及系统
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN114450870A (zh) 2019-09-23 2022-05-06 卡诺科技公司 包括具有矩形横截面的线圈元件的分数槽电动马达
CN110866969B (zh) * 2019-10-18 2022-06-14 西北工业大学 基于神经网络与点云配准的发动机叶片重构方法
CN110909623B (zh) * 2019-10-31 2022-10-04 南京邮电大学 三维目标检测方法及三维目标检测器
CN111079523A (zh) * 2019-11-05 2020-04-28 北京迈格威科技有限公司 物体检测方法、装置、计算机设备和存储介质
CN111079545A (zh) * 2019-11-21 2020-04-28 上海工程技术大学 一种基于图像修复的三维目标检测方法和系统
TWI759651B (zh) 2019-11-21 2022-04-01 財團法人工業技術研究院 基於機器學習的物件辨識系統及其方法
CN110992337A (zh) * 2019-11-29 2020-04-10 添维信息科技(天津)有限公司 一种集装箱残损检测方法及系统
CN111062423B (zh) * 2019-11-29 2022-04-26 中国矿业大学 基于自适应特征融合的点云图神经网络的点云分类方法
CN111223120B (zh) * 2019-12-10 2023-08-04 南京理工大学 一种点云语义分割方法
CN111210515A (zh) * 2019-12-30 2020-05-29 成都赫尔墨斯科技股份有限公司 一种基于地形实时渲染的机载合成视觉系统
CN111145174B (zh) * 2020-01-02 2022-08-09 南京邮电大学 基于图像语义特征进行点云筛选的3d目标检测方法
CN111274927A (zh) * 2020-01-17 2020-06-12 北京三快在线科技有限公司 一种训练数据的生成方法、装置、电子设备和存储介质
CN113496160B (zh) * 2020-03-20 2023-07-11 百度在线网络技术(北京)有限公司 三维物体检测方法、装置、电子设备和存储介质
CN111507222B (zh) * 2020-04-09 2023-07-07 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN111709269B (zh) * 2020-04-24 2022-11-15 中国科学院软件研究所 一种深度图像中基于二维关节信息的人手分割方法和装置
CN111783580B (zh) * 2020-06-19 2022-11-15 宁波智能装备研究院有限公司 基于人腿检测的行人识别方法
CN112257605B (zh) * 2020-10-23 2021-07-23 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112926461B (zh) * 2021-02-26 2024-04-19 商汤集团有限公司 神经网络训练、行驶控制方法及装置
CN112949463B (zh) * 2021-02-26 2023-08-04 长安大学 一种集料级配快速检测模型的建立、检测方法及系统
CN113298781B (zh) * 2021-05-24 2022-09-16 南京邮电大学 一种基于图像和点云融合的火星表面三维地形检测方法
CN114387202B (zh) * 2021-06-25 2023-05-02 南京交通职业技术学院 一种基于车端点云与图像融合的3d目标检测方法
CN113627478A (zh) * 2021-07-08 2021-11-09 深圳市优必选科技股份有限公司 一种目标检测方法、目标检测装置及机器人
CN116503418B (zh) * 2023-06-30 2023-09-01 贵州大学 一种复杂场景下的作物三维目标检测方法
CN116778262B (zh) * 2023-08-21 2023-11-10 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN117315092A (zh) * 2023-10-08 2023-12-29 玩出梦想(上海)科技有限公司 一种自动标注方法及数据处理设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257139A (zh) * 2018-02-26 2018-07-06 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108460779A (zh) * 2018-02-12 2018-08-28 浙江大学 一种动态环境下的移动机器人图像视觉定位方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679562B (zh) * 2017-09-20 2021-01-19 北京航空航天大学 三维模型的解析处理方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460779A (zh) * 2018-02-12 2018-08-28 浙江大学 一种动态环境下的移动机器人图像视觉定位方法
CN108257139A (zh) * 2018-02-26 2018-07-06 中国科学院大学 基于深度学习的rgb-d三维物体检测方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Frustum PointNets for 3D Object Detection from RGB-D Data;Charles R. Qi et al.;《arXiv》;20171122;第1-15页 *

Also Published As

Publication number Publication date
CN109523552A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109523552B (zh) 基于视锥点云的三维物体检测方法
CN109816725B (zh) 一种基于深度学习的单目相机物体位姿估计方法及装置
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN109870983B (zh) 处理托盘堆垛图像的方法、装置及用于仓储拣货的系统
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
US10346720B2 (en) Rotation variant object detection in Deep Learning
CN109829476B (zh) 基于yolo的端到端三维物体检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN108230337A (zh) 一种基于移动端的语义slam系统实现的方法
CN109446970A (zh) 一种基于深度学习的变电站巡检机器人道路场景识别方法
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN106504233A (zh) 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN114332385A (zh) 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法
Budvytis et al. Large scale joint semantic re-localisation and scene understanding via globally unique instance coordinate regression
Balaska et al. Enhancing satellite semantic maps with ground-level imagery
CN113591795A (zh) 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN115115859A (zh) 基于无人机航拍的长线性工程施工进度智能识别与分析方法
Zelener et al. Cnn-based object segmentation in urban lidar with missing points
GB2612029A (en) Lifted semantic graph embedding for omnidirectional place recognition
CN113743417A (zh) 语义分割方法和语义分割装置
CN115063447A (zh) 一种基于视频序列的目标动物运动追踪方法及相关设备
CN114358133B (zh) 一种基于语义辅助双目视觉slam检测回环帧的方法
Liao et al. Lr-cnn: Local-aware region cnn for vehicle detection in aerial imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant