CN112801988B

CN112801988B - 基于rgbd和深度神经网络的物体抓取位姿检测方法

Info

Publication number: CN112801988B
Application number: CN202110141847.1A
Authority: CN
Inventors: 苟铭浩; 方浩树; 王晨曦; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-04-18
Anticipated expiration: 2041-02-02
Also published as: CN112801988A

Abstract

一种基于RGBD和深度神经网络的物体抓取位姿检测方法，将RGB图片通过角度视角网络转换为角度视角热度图，再将RGB图片对应的深度图片与转换得到的角度视角热度图通过碰撞和空抓检测系统生成对应的抓取七维位姿，即平行夹具中心点的三维平移坐标、平行夹具的三维旋转坐标和平行夹具的张开宽度。本发明通过融合RGB图片和深度信息保证生成的平行夹爪自由度大于等于六维，提高检测准确程度，当应用在实际工业场景时可以有效迅速地将一个由若干物体组成的混乱场景利用机械臂及配套夹具清空。实施例如利用机械夹爪逐个抓取图一中所拍摄场景中的所有物体。

Description

基于RGBD和深度神经网络的物体抓取位姿检测方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于彩色深度图片(RGBD)和深度神经网络的物体抓取位姿检测方法。

背景技术

物体抓取是机器人领域的核心问题之一，抓取位姿检测更是其中最重要的部分。抓取位子检测问题为对于给定的输入，例如RGBD图片或者点云数据，求解得到机械夹具在空间中的至少六维的姿态。此姿态包括但是不局限于平行夹爪中心点在空间中的三维平移和在空间中的三维旋转。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于RGBD和深度神经网络的物体抓取位姿检测方法，通过融合RGB图片和深度信息保证生成的平行夹爪自由度大于等于六维，提高检测准确程度，当应用在实际工业场景时可以有效迅速地将一个由若干物体组成的混乱场景利用机械臂及配套夹具清空。实施例如利用机械夹爪逐个抓取图一中所拍摄场景中的所有物体。

本发明是通过以下技术方案实现的：

本发明涉及一种基于RGBD和深度神经网络的物体抓取位姿检测方法，将RGB图片通过角度视角网络转换为角度视角热度图，再将RGB图片对应的深度图片与转换得到的角度视角热度图通过碰撞和空抓检测系统生成对应的抓取七维位姿，即平行夹具中心点的三维平移坐标、平行夹具的三维旋转坐标和平行夹具的张开宽度。

所述的角度视角网络，具体为深度卷积神经网络，其生成的角度视角热度图为360*96*72的张量，分别表示360种角度视角组合在图片中的不同位置可以成功抓取物体的可信度。

所述的碰撞和空抓检测步骤包括重建夹爪空间和模型碰撞检测。

技术效果

本发明整体解决了现有技术无法基于RGBD图片和夹爪构型生成七维抓取位姿；与现有技术相比，本发明利用角度视角网络生成角度视角热度图，采用碰撞和空抓检测用以进一步筛选得到抓取位姿。

本发明将RGB和深度图结合，避免常见的点云传感器失效对结果造成的影响。利用RGB图片的稳定性，结合深度信息进行搜索与过滤，高效准确地生成七维平行夹爪抓取位姿。

与其他相似算法相比，利用大型通用数据集GraspNet 1Billion上的训练集进行训练，并在GraspNet 1Billion测试集上进行测试得到的分数取得现有最好成绩。

附图说明

图1为本发明流程图；

图2为实施例夹爪坐标系及七维坐标示意图；

图3为视角及角度采样方法示意图；

图4为生成的角度视角热度图样例示意图；

图5为碰撞和空抓检测模块示意图；

图6为实施例实验结果对比示意图。

具体实施方式

如图1所示，为本实施例涉及的一种基于RGBD和深度神经网络的物体抓取位姿检测系统，包括：角度视角网络、碰撞和空抓检测系统，其中：角度视角网络根据RGB图片，通过神经网络和特定的损失函数训练得到角度视角热度图，碰撞和空抓检测系统根据角度视角热度图、深度图以及夹爪的构型，通过三维重建和几何分析，得到若干抓取位姿。

如图1所示，为本实施例涉及的一种基于RGBD图片进行物体抓取位姿检测方法，生成的平行夹爪抓取位姿为一个七维向量，即如图2所示，分别为平行夹爪的中心x、y、z三维平移坐标，平行夹爪的三维旋转坐标以及平行夹爪的宽度，具体包括以下步骤：

步骤1)生成训练标签：从公开的GraspNet数据集生成训练角度视角网络的标签，具体包括：

步骤1.1读取GraspNet数据集中的数据，将每一张图片均匀分为96×72个分格，均匀采样60个视角和6个面内旋转角度共计360种组合，如图3所示具体包括：

i)在球面上通过斐波那契采样法获取120个视角，再利用半球约束删除其中方向向下的60个视角，从而获得共计60个视角；

ii)在180度的范围内每个30度采样一个面内旋转角度，得到共计6个面内角度；

iii)每一种视角和面内旋转角度可以得到一种组合，一共获取360中组合。

步骤1.2根据GraspNet数据集中的标注，给予每一个格子中的每一个视角角度组合一个01标签，0表示此格中此视角和角度组合不能成功抓取任何物体，1表示此格中此视角和角度组合能够成功抓取某个物体。

步骤2)训练角度视角网络：选取基网络并且根据步骤1中生成的标签对角度视角网络进行训练，具体包括：

步骤2.1设计损失函数为

其中：x、y、v分别为某一个场景的宽度索引、高度索引和视角角度组合索引，f为角度视角网络，I为数据集中的RGB图片，f(I)为角度视角网络预测的三阶张量，即如图4所示的角度视角热度图，L为步骤1中生成的角度视角热度图真值标签。

在进行推理的过程中，如图4所示，角度视角网络生成角度热度图预测值供后续步骤使用。

所述的角度视角热度图具体为一个三阶张量，形状为360*96*72，该三维张量的三个索引分别对应RGB图片中的宽度坐标、高度坐标和当前坐标下某一个角度视角组合对应的平行夹爪位姿能够成功抓取物体的可信度。

步骤2.2使用Adam优化器训练编码器解码器网络：采用批量大小为16，共训练60000个批次，初始学习率为10^-3，每经过20000个批次的训练后，学习率衰减十倍。

步骤3)采用训练后的角度视角网络对输入的RGBD图片生成角度视角热度图，通过重建场景三维信息并进行采样后，依次进行碰撞检测、空抓检测和抓取非极大值抑制处理，从而得到抓取位姿预测值，具体包括：

步骤3.1重建场景三维信息：根据GraspNet数据集中提供的相机内置参数和拍摄的深度图片，计算输入的RGBD图片中每一点在三维空间中的坐标，构件三维场景，具体包括：

①根据单孔相机参数和相机内参计算相机内参矩阵；

②通过相机内参变换矩阵进行矩阵运算得到输入的RGBD图片中每一点在三维空间中的位置。

步骤3.2角度视角热度图采样：对于角度视角网络预测的角度视角热度图保留每一个分格中分数最高的10个角度视角组合，然后从所有的96×72×10个候选角度视角及位置组合中，选取预测可信度最高的10000个组合。如图5所示，每一个可能的组合再搜索五种宽度和三种距离相机的深度，共计150000个抓取位姿作为候选。

步骤3.3碰撞检测：对于150000个候选位姿，重建平行夹爪在空间中的模型，检测是否与步骤3.1中重建的三维场景有冲突，有冲突的抓取位姿被判定为不合理的抓取位姿，被排除。

所述的重建模型的方法为：生成一个符合实际夹爪尺寸的空间三角网格，根据给定的候选位姿进行三维变换，得到重建的模型。

步骤3.4空抓检测：对于经过碰撞检测剩余的抓取位姿，检查其重建模型中的抓取空间内，即两个平行夹爪中的空间中是否存在步骤3.1中重建的点，当不存在时判定为不合理的抓取位姿并排除。

步骤3.5抓取非极大值抑制：对于剩余所有的抓取位姿，从步骤2.2生成的可信度从高到低的顺序依次进行非极大值抑制，即排除任一个抓取位姿附近所有距离和旋转角度均接近于阈值的抓取位姿，并最终得到抓取位姿预测值。

所述的接近，本实施例中采用10cm和30度。

所述的非极大值抑制，由预测可信度最高的抓取位姿开始遍历至所有的位姿。

经过具体实际实验，使用1张NVIDIA RTX 2080显卡和2块Intel Xeon E5-2686 v4CPU，在PyTorch计算框架上和Ubuntu 18.04操作系统上运行上述方法，利用GraspNet上提供的测试集数据和测试方法进行测试，得到的实验数据是：在三种难度的测试数据上均取得最好成绩，其中Seen难度的AP达到27.98/32.08(分别为采集自RealSense/Kinect两种相机的数据测试结果，下同)，Unseen难度的AP达到27.23/30.04，Novel难度的AP达到12.55/13.08，具体对比结果如下表所示。

如上表所示，为本方法与其他一些对比方法在GraspNet 1Billion数据集上的结果对比；其中随机采样方法指省略下述具体实施方式中的角度视角热度图生成网络，直接选取符合标准正态分布的随机张量作为热度图再利用碰撞和空抓检测得到抓取位姿的方法。

与现有技术相比，本方法利用RGB图片的稳定性，预测平行夹具的旋转方向与空间位置，利用深度图片重建的三维场景，过滤掉与场景出现碰撞或者没有抓到任务物体的抓取位姿最终生成大量的平行夹具抓取位姿，在大型通用抓取数据集GraspNet上达到目前为止最好效果。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征在于，将RGB图片通过角度视角网络转换为角度视角热度图，再将RGB图片对应的深度图片与转换得到的角度视角热度图通过碰撞和空抓检测系统生成对应的抓取七维位姿，即平行夹具中心点的三维平移坐标、平行夹具的三维旋转坐标和平行夹具的张开宽度；

所述的角度视角网络，具体为深度卷积神经网络，其损失函数为

其中：x、y、v分别为某一个场景的宽度索引、高度索引和视角角度组合索引，f为角度视角网络，I为数据集中的RGB图片，f(I)为角度视角网络预测的三阶张量，即角度视角热度图，L为角度视角热度图真值标签，该角度视角网络生成的角度视角热度图为360*96*72的张量，分别表示360种角度视角组合在图片中的不同位置可以成功抓取物体的可信度；

2.根据权利要求1所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，具体包括：

步骤1)生成训练标签：从公开的GraspNet数据集生成训练角度视角网络的角度视角热度图真值标签；

步骤2)训练角度视角网络：选取基网络并且根据步骤1中生成的标签对角度视角网络进行训练；

步骤3)采用训练后的角度视角网络对输入的RGBD图片生成角度视角热度图，通过重建场景三维信息并进行采样后，依次进行碰撞检测、空抓检测和抓取非极大值抑制处理，从而得到抓取位姿预测值。

3.根据权利要求2所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的步骤1，具体包括：

步骤1.1读取GraspNet数据集中的数据，将每一张图片均匀分为96×72个分格，均匀采样60个视角和6个面内旋转角度共计360种组合；

4.根据权利要求3所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的步骤1.1，具体包括：

5.根据权利要求2所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的步骤2，具体包括：设计损失函数并使用Adam优化器训练编码器解码器网络：采用批量大小为16，共训练60000个批次，初始学习率为10^-3，每经过20000个批次的训练后，学习率衰减十倍；

所述的角度视角热度图具体为一个三阶张量，形状为360*96*72，该三阶张量的三个索引分别对应RGB图片中的宽度坐标、高度坐标和当前坐标下某一个角度视角组合对应的平行夹爪位姿能够成功抓取物体的可信度。

6.根据权利要求2所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的步骤3，具体包括：

①根据单孔相机参数和相机内参计算相机内参矩阵；

②通过相机内参变换矩阵进行矩阵运算得到输入的RGBD图片中每一点在三维空间中的位置；

步骤3.2角度视角热度图采样：对于角度视角网络预测的角度视角热度图保留每一个分格中分数最高的10个角度视角组合，然后从所有的96×72×10个候选角度视角及位置组合中，选取预测可信度最高的10000个组合，每一个可能的组合再搜索五种宽度和三种距离相机的深度，共计150000个抓取位姿作为候选；

步骤3.3碰撞检测：对于150000个候选位姿，重建平行夹爪在空间中的模型，检测是否与步骤3.1中重建的三维场景有冲突，有冲突的抓取位姿被判定为不合理的抓取位姿，被排除；

步骤3.4空抓检测：对于经过碰撞检测剩余的抓取位姿，检查其重建模型中的抓取空间内，即两个平行夹爪中的空间中是否存在步骤3.1中重建的点，当不存在时判定为不合理的抓取位姿并排除；

步骤3.5抓取非极大值抑制：对于剩余所有的抓取位姿，从步骤2.2生成的可信度从高到低的顺序依次进行非极大值抑制，即排除任一个抓取位姿附近所有距离和旋转角度均接近于阈值的抓取位姿，并最终得到抓取位姿预测值；

7.根据权利要求6所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的接近，其范围为10cm和30度。

8.根据权利要求2所述的基于RGBD和深度神经网络的物体抓取位姿检测方法，其特征是，所述的非极大值抑制，由预测可信度最高的抓取位姿开始遍历至所有的位姿。

9.一种实现权利要求1-8中任一所述方法的基于RGBD和深度神经网络的物体抓取位姿检测系统，其特征在于，包括：角度视角网络、碰撞和空抓检测系统，其中：角度视角网络根据RGB图片，通过神经网络和特定的损失函数训练得到角度视角热度图，碰撞和空抓检测系统根据角度视角热度图、深度图以及夹爪的构型，通过三维重建和几何分析，得到若干抓取位姿。