CN108257139A

CN108257139A - 基于深度学习的rgb-d三维物体检测方法

Info

Publication number: CN108257139A
Application number: CN201810163104.2A
Authority: CN
Inventors: 吕科; 檀彦豪; 薛健; 默罕默德·蒙塔塞尔·拉赫曼
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-07-06
Anticipated expiration: 2038-02-26
Also published as: CN108257139B

Abstract

本发明公开了基于深度学习的RGB‑D三维物体检测方法，对RGB‑D图像进行标注，获取标注后的RGB‑D图像数据集，将数据集作为三维物体检测卷积神经网络模型的训练样本和测试样本；构建三维物体检测卷积神经网络模型，将训练样本和测试样本输入三维物体检测卷积神经网络模型中；设置卷积神经网络模型的超参数，通过Caffe训练三维物体检测卷积神经网络模型，当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时，生成训练模型；将RGB‑D图像数据集输入至训练完毕的模型中，输出三维物体检测结果。本发明比现有三维物体检测方法速度快、准确率高。

Description

基于深度学习的RGB-D三维物体检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习的RGB-D三维物体检测方法。

背景技术

物体检测是计算机视觉领域的一个基本但极具挑战的研究。在过去的几年里，由于可以轻易获取大量标注过的图像数据，加之深度卷积神经网络算法的不断进步，二维物体检测性能越来越好。二维物体检测通常是在图像中识别和定位到物体后，紧紧围绕物体圈出一个矩形框来表示物体在图像中所在位置。但是真实的世界是三维世界，传统的二维物体检测在三维世界里会产生很多问题，首先，二维物体检测仅仅得到物体所在图像中的平面位置信息，缺少物体在真实世界的三维信息；其次，在复杂场景下，如遮挡，则二维物体检测的效果则不是很好。随着科技的发展，深度相机的广泛应用，且由于传统二维物体检测的不足，三维物体检测应运而生。三维物体检测通过识别和定位三维物体，得到物体的三维信息，紧紧围绕物体圈出一个立方体框来表示物体在真实世界中的位置。三维物体检测在智能机器人、自动驾驶、增强现实等领域都有着重要的应用价值。然而，由于三维物体检测较二维物体检测更复杂、计算量更大，现有的三维物体检测方法的速度慢、准确率低。

发明内容

本发明的目的在于提供一种基于深度学习的RGB-D深度图像三维物体检测方法，该方法比现有三维物体检测方法速度快、准确率高。

为实现上述目的，本发明的技术方案为：基于深度学习的RGB-D三维物体检测方法，所述检测方法包括：

步骤一：对RGB-D图像进行标注，获取标注后的RGB-D图像数据集，将数据集作为三维物体检测卷积神经网络模型的训练样本和测试样本；

步骤二：构建三维物体检测卷积神经网络模型，将训练样本和测试样本输入三维物体检测卷积神经网络模型中；

步骤三：设置卷积神经网络模型的超参数，通过Caffe训练三维物体检测卷积神经网络模型，当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时，生成训练模型；

步骤四：将RGB-D图像数据集输入至训练完毕的模型中，输出三维物体检测结果。

如上所述的基于深度学习的RGB-D三维物体检测方法，所述步骤一中，RGB-D图像数据集为NYU Depth Dataset V2数据集，RGB-D图像数据集通过Microsoft Kinect深度相机采集的各种室内场景的RGB-D图像组成。

如上所述的基于深度学习的RGB-D三维物体检测方法，所述步骤一中还包括，对RGB-D图像数据集使用滤波器通过双边滤波算法进行滤波。

如上所述的基于深度学习的RGB-D三维物体检测方法，所述步骤二中，三维物体检测卷积神经网络模型构建方法为：

a)使用两个VGG-16卷积神经网络模型作为特征提取模型，RGB图和其对应的预处理过后的深度图为其输入，其中对第四个卷积层后的输出有两个不同分支操作：第一个分支是先进入池化层再进入第五个卷积层，第二个分支是直接进入第五个卷积层；

b)将第二个分支输出结果作为多模态混合区域建议网络的输入，所述多模态混合区域建议网络包括：二维区域检测建议网络和物体立体空间中心点计算，

二维区域检测建议网络输出为

其中，x、y、w、h代表二维边界框的中心点坐标、边界框的宽和高，x_a、y_a、w_a、h_a为对应的真值；

二维区域检测建议网络的损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λp^*L_reg(t，t^*)

其中，p表示二维边界框中为物体的概率，p^*表示其对应的真值，L_reg使用Smooth L₁损失，t表示区域检测建议网络；

物体立体空间中心点计算通过由二维区域检测建议网络所输出二维物体区域建议映射到原始深度图像上，然后计算降采样后深度图像的中间值得出；

多模态混合区域建议网络的最后输出三维物体检测区域建议网络为t＝(t_x，t_y，t_z，t_l，t_w，t_h，t_θ)，

t_θ＝θ^gt×π/180

其中,x，y，z表示三维边界框的中心点坐标，l，w，h表示三维边界框的长、宽、高，θ表示物体的方向角；

三维物体检测区域建议网络损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λ[p^*>0]L_{3d_reg}(t，t^*)

其中L_{3d_reg}使用Smooth L₁损失；

c)将步骤a)第一分支的输出和步骤b)的输出分别输入到不同的感兴趣区域层，其中步骤b)首先输出到ROIS-Context层和ROIS层，再输入到感兴趣区域层，各感兴趣区域层之间分别提供不同尺度的特征，最后的输出进行融合输入到全连接层。

如上所述的基于深度学习的RGB-D三维物体检测方法，所述步骤三中通过Caffe训练三维物体检测卷积神经网络模型方法为：使用ImageNet的VGG-16的预训练卷积神经网络模型为三维物体检测卷积神经网络进行参数初始化。

本发明的RGB-D三维检测方法采用卷积神经网络模型，不仅三维物体检测的准确率比现有方法高，并且三维物体检测的速度也比现有方法快。

附图说明

图1为基于深度学习的RGB-D三维物体检测方法流程图；

图2为三维物体检测卷积神经网络模型结构图；

图3为三维物体检测边界框生成过程示意图；

图4为本发明实施例中部分测试样例三维物体检测结果；

图5为本发明实施例中测试样本三维物体检测类别和准确率。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。本发明中，RGB图指的是通过红(R)、绿(G)、蓝(B)参数值表示的图像，其通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加得到各式各样的颜色；深度图是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道，其类似于灰度图像，只是深度图的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系，RGB-D指的就是深度图像。

如图1所示，基于深度学习的RGB-D三维物体检测方法，所述检测方法包括：

S1：对RGB-D图像进行标注，获取标注后的RGB-D图像数据集，将数据集作为三维物体检测卷积神经网络模型的训练样本和测试样本；

S2：构建三维物体检测卷积神经网络模型，将训练样本和测试样本输入三维物体检测卷积神经网络模型中；

S3：设置卷积神经网络模型的超参数，通过Caffe训练三维物体检测卷积神经网络模型，当代价损失函数减少到理想程度且训练达到所要求的最大迭代次数时，生成训练模型；

S4：将RGB-D图像数据集输入至训练完毕的模型中，输出三维物体检测结果。

基于深度学习的RGB-D三维物体检测方法的一个实施例中，所述S1中，RGB-D图像数据集为NYU Depth Dataset V2数据集，RGB-D图像数据集通过Microsoft Kinect深度相机采集的各种室内场景的RGB-D图像组成。NYU Depth Dataset V2数据集是由MicrosoftKinect深度相机采集的各种室内场景的RGB-D图像组成，本实施例中包含1449张已标注的RGB-D图像，其中795张RGB-D图像作为训练样本，剩余654张RGB-D图像作为测试样本。在所有RGB-D图像中需检测共包含19大类室内常见物体：浴缸、床、书架、盒子、椅子、柜台、书桌、门、梳妆台、垃圾桶、台灯、显示器、床头柜、枕头、水槽、沙发、桌子、电视、马桶。

基于深度学习的RGB-D三维物体检测方法的一个实施例中，所述S1中还包括，对RGB-D图像数据集使用滤波器通过双边滤波算法进行滤波。双边滤波是一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，同时考虑空域信息和灰度相似性，达到保边去噪的目的，具有简单、非迭代、局部的特点。

基于深度学习的RGB-D三维物体检测方法的一个实施例中，所述S2中，三维物体检测卷积神经网络模型构建方法为：

二维区域检测建议网络输出为

二维区域检测建议网络的损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λp^*L_reg(t，t^*)

t_θ＝θ^gt×π/180

三维物体检测区域建议网络损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λ[p^*>0]L_{3d_reg}(t，t^*)

其中L_{3d_reg}使用Smooth L₁损失；

c)将步骤a)第一分支的输出和步骤b)的输出分别输入到不同的感兴趣区域层，其中步骤b)首先输出到ROIS-Context层和ROIS层，再输入到感兴趣区域层，ROIS-Context层下采样出来的特征图大小是ROIS层输出的特征图大小的1.5倍。各感兴趣区域层之间分别提供不同尺度的特征，最后的输出进行融合输入到全连接层。

基于深度学习的RGB-D三维物体检测方法的一个实施例中，所述S3中通过Caffe训练三维物体检测卷积神经网络模型方法为：使用ImageNet的VGG-16的预训练卷积神经网络模型为三维物体检测卷积神经网络进行参数初始化。使用ImageNet的VGG-16的预训练卷积神经网络模型为本发明的三维物体检测卷积神经网络进行参数初始化。在本实施例中使用四阶段交替训练方法，其中第一和第三阶段分别迭代80000次，第二和第四阶段分为别40000次。基础学习率为0.001，分别在第一和第三阶段、第二和第四阶段的60000次迭代和30000次迭代后降为0.0001。动量参数设置为0.9，权值衰减设置为0.0005。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于深度学习的RGB-D三维物体检测方法，其特征在于，所述检测方法包括：

2.根据权利要求1所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤一中，RGB-D图像数据集为NYU Depth Dataset V2数据集，RGB-D图像数据集通过Microsoft Kinect深度相机采集的各种室内场景的RGB-D图像组成。

3.根据权利要求1所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤一中还包括，对RGB-D图像数据集使用滤波器通过双边滤波算法进行滤波。

4.根据权利要求1所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤二中，三维物体检测卷积神经网络模型构建方法为：

b)将第二个分支输出结果作为多模态混合区域建议网络的输入，进行二维区域检测建议网络和物体立体空间中心点计算；

5.根据权利要求4所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤b)中，二维区域检测建议网络输出为

二维区域检测建议网络的损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λp^*L_reg(t，t^*)

其中，p表示二维边界框中为物体的概率，p^*表示其对应的真值，L_reg使用Smooth L₁损失，t表示区域检测建议网络。

6.根据权利要求4所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤b)中，物体立体空间中心点计算通过由二维区域检测建议网络所输出二维物体区域建议映射到原始深度图像上，然后计算降采样后深度图像的中间值得出；

t_θ＝θ^gt×π/180

其中,x，y，z表示三维边界框的中心点坐标，l，w，h表示三维边界框的长、宽、高，θ表示物体的方向角。

7.根据权利要求6所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤b)中，三维物体检测区域建议网络损失函数为：

L(p，p^*，t，t^*)＝L_cls(p，p^*)+λ[p^*>0]L_{3d_reg}(t，t^*)

其中L_{3d_reg}使用Smooth L₁损失。

8.根据权利要求1所述的基于深度学习的RGB-D三维物体检测方法，其特征在于，所述步骤三中通过Caffe训练三维物体检测卷积神经网络模型方法为：使用ImageNet的VGG-16的预训练卷积神经网络模型为三维物体检测卷积神经网络进行参数初始化。