CN109829476B

CN109829476B - 基于yolo的端到端三维物体检测方法

Info

Publication number: CN109829476B
Application number: CN201811612659.7A
Authority: CN
Inventors: 沈大勇; 翟天亨; 王晓; 刘胜
Original assignee: Qingdao Cas Huichang Information Technology Co ltd
Current assignee: Qingdao Cas Huichang Information Technology Co ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2023-02-10
Anticipated expiration: 2038-12-27
Also published as: CN109829476A

Abstract

本发明公开了一种基于YOLO的端到端三维物体检测方法。基于YOLO的端到端三维物体检测方法，包括以下步骤：对点云图像进行标注，获取标注后的点云图像数据集；构建基于YOLO的端到端三维物体检测网络模型；将点云图像数据集作为所述基于YOLO的端到端三维物体检测网络模型的训练样本和测试样本；将训练样本输入所述的基于YOLO的端到端三维物体检测网络模型中进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的模型保存；然后将测试样本输入至保存好的网络模型中，网络即会输出三维物体检测结果。本发明的基于YOLO的端到端三维物体检测方法，比现有的三维物体检测方法更完善，训练难度更高。

Description

基于YOLO的端到端三维物体检测方法

技术领域

本发明涉及模式识别、机器学习及计算机视觉技术领域，特别涉及基于YOLO和FLN网络的物体检测方法。

背景技术

三维物体检测是模式识别和计算机视觉的一个重要研究领域，同时也是解决很多高层视觉任务的核心问题，物体检测的研究为高层视觉任务的解决奠定了基础。它在人们的日常生活中以及工业生产中有着广泛的应用，如智能视频监控、无人驾驶、智能机器人、智能交通以及增强现实等。

在过去的几年里，随着二维物体检测方法的日趋完善以及深度相机的普及，三维物体检测技术也获得了突飞猛进的发展。三维物体检测通过识别和定位三维物体，得到物体的三维信息，输出物体的三维包围盒来表示物体在真实世界中的位置。三维包围盒由其中心点坐标C_x,C_y,C_z、尺寸w,h,l以及方向角α,β,γ来决定。其中，C_x,C_y,C_z为相对于特征图网格的偏移，w,h,l为相对于anchor尺寸的偏移，α,β,γ为相对于anchor姿态的偏移。在已有的研究工作中，无人驾驶三维物体检测和室内环境的场景理解，其三维包围盒的自由度仅仅为7个(即C_x,C_y,C_z,w,h,l,α),因为车辆和室内环境中的物体只有航向角α，而没有俯仰角β和翻滚角γ。但在我们所研究的物体拣选和装卸领域，我们必须考虑物体精确的姿态，以达到与其对应的效果，因此我们需要考虑物体的俯仰角β和翻滚角γ，输出9个自由度的三维物体包围盒。

发明内容

为解决上述技术问题，本发明提供了基于YOLO的端到端的三维物体检测方法，以达到检测更完善，难度更高的目的。

为达到上述目的，本发明的采用的技术方案为：基于YOLO的端到端三维物体检测方法，包括以下步骤：

步骤一：对点云图像进行标注，获取标注后的点云图像数据集；

步骤二：构建基于YOLO的端到端三维物体检测网络模型；将点云图像数据集作为所述基于YOLO的端到端三维物体检测网络模型的训练样本和测试样本；

步骤三：将训练样本输入所述的基于YOLO的端到端三维物体检测网络模型中进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的模型保存；然后将测试样本输入至保存好的网络模型中，网络即会输出三维物体检测结果。

进一步的，所述基于YOLO的端到端三维物体检测网络模型的构建方法包括以下步骤：

步骤一：构建基于FLN的三维特征学习网络，将点云数据集作为该网络的输入，将点云空间划分为体素，并且将每个体素内的点变换为表征形状信息的矢量表示；该空间被表示为稀疏4D张量；

步骤二：将稀疏4D张量调整为3D张量，保留宽和高尺度，将深度和通道数合并为新的通道数；

步骤三：将步骤二获得的3D张量作为基于YOLO的二维物体检测网络的输入，该网络基于偏移残差回归三维包围盒，直接回归包围盒的中心点坐标、长宽高、欧拉角9个自由度。回归方法是通过计算预测值与真实值之间的Loss值来不断调教网络使其输出值不断逼近真实值。

进一步的，所述基于FLN的三维特征学习网络的构建方法为：

a)通过将输入点云按照Vd×Vh×Vw栅格化，Vd×Vh×Vw表示每个栅格的深度、宽度和高度，由于原始点云深度、宽度和高度为D',H',W'以及公式D＝D'/Vd,H＝H'/Vh,W＝W'/Vw，则将会有D×H×W个栅格，对每个非空栅格采样T个点并计算栅格内所有点的均值，记录每个点和每个点到该均值的欧式距离；而空栅格则初始化为零。由此得到D×H×W×T×6；

b)将a)中得到的非空稀疏栅格输入多个VFE层(Voxel Feature Encoding,体素特征编码)。一个VFE层由全连接层、最大池化层和逐点连接层组成。全连接层后跟着批归一化层(Batch Normalization)和线性整流激活函数(ReLU)，该层会将栅格内的点表达为逐点特征向量(point-wise feature vector)；最大池化层将逐点特征向量表达为局部聚合特征(locally aggregated feature)；逐点连接层将每个逐点特征向量和局部聚合向量联结起来，由此得到VFE层的输出。若以1个栅格(T×6)作为输入，VFE层的输出为C，C为最后一个VFE层的输出尺度，则栅格化后的点云再讲过FLN网络的输出为4D张量(D×H×W×C)。

c)将b)中得到的4D张量(D×H×W×C)调整为3D张量(H×W×D·C)，即先将4D张量的第一个尺度转置到第四个尺度之前变为H×W×D×C(使用Tensorflow中的transpose函数)，然后将第三、四尺度合并为一个尺度变为H×W×D·C(使用Tensorflow中的reshape函数)，以便将其输入到之后的基于YOLO的二维物体检测网络中。

进一步的，所述基于YOLO的二维物体检测网络为YOLOv2网络，该网络为YOLO第二个版本，又称YOLO900，实现实时检测二维物体。该网络共有14个卷积层和3个最大池化层，除最后一层外，每个卷积层后都跟着批归一化层(Batch Normalization)和线性整流激活函数(ReLU)，这些层构成了整个卷积神经网络(CNN，即Convolutional Neural Networks)。

YOLOv2网络的输出为(H/8×W/8×B*(10+K))的特征图，其中B是anchor的数量，K是类别的数目。特征图中的每个网格预测B个包围盒，每个包围盒除拥有9个位置、大小和角度信息外，还有置信分数和K个类别概率；而每个包围盒的位置是相对于特征图网格的偏移。

给定网络输出值t_x,t_y,t_z,t_w,t_h,t_l,t_α,t_β,t_γ，包围盒的真实值b_x,b_y,b_z,b_w,b_h,b_l,b_α,b_β,b_γ通过以下公式计算：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

b_z＝σ(t_z)+C_z

其中，C_x,C_y,C_z为特征图上每个网格左上角的坐标，即网格的序号。

基于YOLO的二维物体检测网络的损失函数为：

前三项为坐标预测损失函数，第四项为含有物体的包围盒的置信度预测损失函数，第五项则是不含物体的包围盒的置信度预测损失函数，最后一项为类别预测损失函数。

是指示函数，用于指示第

个包围盒是否负责预测第

个网格，

则指示包围盒内没有包含物体。

进一步的，作为本发明的一种优选方式，所述的点云图像数据集包括真实数据集和虚拟数据集两部分：真实数据集是利用多款深度相机在实验室场地环境下采集不同品类的深度图而获取；虚拟数据集是利用Blender工具人工生成不同场景不同天气、不同光照、不同品类的深度图而获取。

进一步的，作为本发明的一种优选方式，所述的真实数据集的获取还包括：对深度图像进行配准，以获得需要的点云数据，利用LabelFusion工具对点云数据进行标注；虚拟数据集的获取中还包括深度图的计算以及数据集自动标注过程。

本发明提供的基于YOLO的端到端三维物体检测方法，采集RGB图像和深度图像生成点云图像并进行标注，获取标注后的点云图像数据集，将数据集作为训练样本和测试样本。该检测方法为基于深度学习方法构建的网络，其主要由两个子网络组成：基于FLN(Feature Learning Network)的三维特征学习网络和基于YOLO(You Only Look Once)的二维物体检测网络，由这两个网络的设计思想设计出基于YOLO的端到端三维物体检测网络，又称YOLO9D网络，该网络将点云图像和标注数据作为输入，设置各种神经网络模型的超参数，通过Tensorflow训练三维物体检测网络模型，当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时，保存训练模型完成训练；将点云图像数据集输入至训练完毕的模型中，输出三维物体检测结果。本发明比现有三维物体检测方法更完善，训练难度更高。

附图说明

图1为基于YOLO的端到端三维物体检测网络结构图；图中：B为每批样本数量，文档中是以一个点云传入网络为例；N为每幅点云内点的数目；3为X、Y、Z三个坐标值；

图2为基于FLN的三维特征学习网络结构图；

图3为基于YOLO的二维物体检测网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明中，RGB图指的是通过红(R)、绿(G)、蓝(B)参数值表示的图像，其通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加得到各式各样的颜色；深度图是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道，其类似于灰度图像，只是深度图的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系，点云图像就是指RGB图像和Depth图像通过对齐和配准之后得到的图像。

基于YOLO的端到端三维物体检测网络模型，其结构如图1所示，包括基于FLN的三维特征学习网络、基于YOLO的二维物体检测网络两个子网络，具体检测方法包括：

步骤一：对点云图像进行标注，获取标注后的点云图像数据集，将点云图像数据集作为基于YOLO的端到端三维物体检测网络模型的训练样本和测试样本。

数据集包括真实数据集和虚拟数据集两部分。其中，真实数据集是利用奥比中光Astra Pro、英特尔SR300等多款深度相机在实验室场地环境下采集不同品类的RGB图和深度图，数据集中包括箱子、文件袋、塑包包裹、编织袋四种品类，包括地堆和货架两种分拣场景。还包括对RGB图像和深度图像进行对齐和配准，以获得需要的点云数据。

虚拟数据集是利用Blender工具人工生成不同分拣场景、不同天气下不同品类的RGB图和深度图，数据集中包括箱子、文件袋、塑包包裹、编织袋四种品类，分拣筐、地堆、工厂、货架四种分拣场景，包括晴天、雾天两种天气。其中，第一种获取方法采用的人工标注的方式得到标注信息，将RGB图像和深度图配准生成点云图像，然后利用LabelFusion工具对点云数据进行标注；第二种方法的标注信息利用编程实现。还包括深度图的计算以及数据集自动标注过程。

步骤二：构建基于FLN的三维特征学习网络，将点云数据集作为该网络的输入，将点云空间划分为体素，并且将每个体素内的点变换为表征形状信息的矢量表示。该空间被表示为稀疏4D张量；将稀疏4D张量调整为3D张量，保留宽和高尺度，将深度和通道数合并为新的通道数。

如图2所示，以一个栅格内有三个点为例，基于FLN的三维特征学习网络构建方法为：

本步骤中的训练样本包含1116张已标注的真实数据集中点云图像，9000张已标注的虚拟数据集中的点云图像，对于真实数据集和虚拟数据集按照8:1:1的比例随机的划分训练集、验证集和测试集。

步骤三：将上述获得的3D张量作为基于YOLO的二维物体检测网络的输入，该网络基于偏移残差回归三维包围盒，直接回归包围盒的中心点坐标、长宽高、欧拉角9个自由度，回归方法是通过计算预测值与真实值之间的Loss值来不断调教网络使其输出值不断逼近真实值，具体方法如下：

a)网络基于YOLOv2，YOLO第二个版本，又称YOLO900，实现实时检测二维物体。如图3所示，该网络共有14个卷积层和3个最大池化层，除最后一层外，每个卷积层后都跟着批归一化层(Batch Normalization)和线性整流激活函数(ReLU)，这些层构成了整个卷积神经网络(CNN，即Convolutional Neural Networks)；

b)该网络的输出为(H/8×W/8×B*(10+K))的特征图，其中B是anchor的数量，K是类别的数目。特征图中的每个网格预测B个包围盒，每个包围盒除拥有9个位置、大小和角度信息外，还有置信分数和K个类别概率；而每个包围盒的位置是相对于特征图网格的偏移；

c)给定网络输出值t_x,t_y,t_z,t_w,t_h,t_l,t_α,t_β,t_γ，包围盒的真实值b_x,b_y,b_z,b_w,b_h,b_l,b_α,b_β,b_γ通过以下公式计算：

b_x＝σ(t_x)+C_x

b_y＝σ(t_y)+C_y

b_z＝σ(t_z)+C_z

其中，C_x,C_y,C_z为特征图上每个网格左上角的坐标，即网格的序号。d)基于YOLO的二维物体检测网络的损失函数为：

是指示函数，用于指示第j个包围盒是否负责预测第i个网格，

则指示包围盒内没有包含物体。

步骤四：将训练样本输入到构建好的基于YOLO的端到端三维物体检测网络即YOLO9D中，训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的模型保存；然后将测试样本输入至保存好的网络模型中，网络即会输出三维物体检测结果。其中，本步骤中的训练样本包含14151张已标注的真实数据集中RGB图像，36497张已标注的虚拟数据集中的RGB图像，测试样本包含1633张真实数据集中的RGB图像。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于YOLO的端到端三维物体检测方法，其特征在于，包括以下步骤：

步骤三：将训练样本输入所述的基于YOLO的端到端三维物体检测网络模型中进行训练，达到训练指定次数或者Loss曲线不再下降且精度不再提高为止，将训练好的模型保存；然后将测试样本输入至保存好的网络模型中，网络即会输出三维物体检测结果；

所述基于YOLO的端到端三维物体检测网络模型由基于FLN的三维特征学习网络和基于YOLO的二维物体检测网络组成，其构建方法包括如下步骤：

步骤(1)：构建基于FLN的三维特征学习网络，将点云数据集作为该网络的输入，将点云空间划分为体素，并且将每个体素内的点变换为表征形状信息的矢量表示；该空间被表示为稀疏4D张量；

步骤(2)：将稀疏4D张量调整为3D张量，保留宽和高尺度，将深度和通道数合并为新的通道数；

步骤(3)：将步骤(2)获得的3D张量作为基于YOLO的二维物体检测网络的输入，该网络基于偏移残差回归三维包围盒，直接回归包围盒的中心点坐标、长宽高、欧拉角9个自由度。

2.根据权利要求1所述的基于YOLO的端到端三维物体检测方法，其特征在于，所述的基于FLN的三维特征学习网络的构建方法为：

(a)通过将输入点云按照Vd×Vh×Vw栅格化，Vd×Vh×Vw表示每个栅格的深度、高度和宽度，由于原始点云深度、高度和宽度为D',H',W'以及公式D＝D'/Vd,H＝H'/Vh,W＝W'/Vw，则将会有D×H×W个栅格，对每个非空栅格采样T个点并计算栅格内所有点的均值，记录每个点和每个点到该均值的欧式距离；而空栅格则初始化为零，由此得到D×H×W×T×6；

(b)将(a)中得到的非空稀疏栅格输入多个VFE层，一个VFE层由全连接层、最大池化层和逐点连接层组成；全连接层后跟着批归一化层和线性整流激活函数，全连接层会将栅格内的点表达为逐点特征向量；最大池化层将逐点特征向量表达为局部聚合特征；逐点连接层将每个逐点特征向量和局部聚合向量联结起来，由此得到VFE层的输出；若以1个栅格T×6作为输入，VFE层的输出为C，C为最后一个VFE层的输出尺度；则栅格化后的点云再经过FLN网络的输出为4D张量D×H×W×C；

(c)将(b)中得到的4D张量D×H×W×C调整为3D张量H×W×D·C：先将4D张量的第一个尺度转置到第四个尺度之前变为H×W×D×C，然后将第三、四尺度合并为一个尺度变为H×W×D·C，以便将其输入到之后的基于YOLO的二维物体检测网络中。

3.根据权利要求1所述的基于YOLO的端到端三维物体检测方法，其特征在于：所述的基于YOLO的二维物体检测网络为YOLOv2网络，为基于YOLO的二维物体检测网络的第二代，该网络实现实时检测二维物体。

4.根据权利要求1-3任一项所述的基于YOLO的端到端三维物体检测方法，其特征在于：所述的点云图像数据集包括真实数据集和虚拟数据集两部分：真实数据集是利用多款深度相机在实验室场地环境下采集不同品类的深度图而获取；虚拟数据集是利用Blender工具人工生成不同场景不同天气、不同光照、不同品类的深度图而获取。

5.根据权利要求4所述的基于YOLO的端到端三维物体检测方法，其特征在于：所述的真实数据集的获取还包括：对深度图像进行配准，以获得需要的点云数据，利用LabelFusion工具对点云数据进行标注。

6.根据权利要求4所述的基于YOLO的端到端三维物体检测方法，其特征在于：所述的虚拟数据集的获取中还包括深度图的计算以及数据集自动标注过程。