CN113664825B

CN113664825B - 一种基于强化学习的堆叠场景机械臂抓取方法与装置

Info

Publication number: CN113664825B
Application number: CN202110814252.8A
Authority: CN
Inventors: 曾龙; 张�浩; 冯平法
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2022-11-25
Anticipated expiration: 2041-07-19
Also published as: CN113664825A

Abstract

本发明公开一种基于强化学习的堆叠场景机械臂抓取方法，包括将多张不同旋转角度的高维特征图输入推动动作的全卷积网络和抓取动作的全卷积网络中获取动作价值最大的推动作和抓动作，并按照当前训练步数下的动作选择规则选择动作，其中，推动作奖励值r_push为推动前后场景中抓动作最大Q值maxQ_grasp之差再加上设定的偏置值，根据选择规则选择的动作进行运动规划，计算出机械臂的动作路径并执行相应动作。所述的基于强化学习的堆叠场景机械臂抓取方法可以有效地解决了现有基于位姿的抓取方法对物体种类和场景种类的限制、解决了现有基于无监督学习方法的推和抓的动作不协调问题，并提高了抓取的成功率。

Description

一种基于强化学习的堆叠场景机械臂抓取方法与装置

技术领域

本发明涉及堆叠场景机械臂抓取物体领域，具体为一种基于强化学习的堆叠场景机械臂抓取方法与装置。

背景技术

伴随着工业化的进程和人工智能的不断发展，机械臂越来越多的代替人工完成智能分拣、搬运和上下料等复杂的任务，这些任务都要求机械臂具有在复杂的堆叠场景中抓取物体的能力。

而现有的用于机械臂抓取的机器学习方法主要通过标签数据监督训练深度学习网络，使网络具有预测物体位姿的能力，再基于网络预测的物体位姿，进行可达性和稳定性评估，使机械臂在不与周围环境产生干涉的情况下进行抓取。CN112171661A公开了一种基于物体位姿的机械臂抓取方法，该方法将相机拍摄的场景RGB-D图片作为输入，通过YOLO网络对目标物体进行识别并定位出特征点像素坐标，进而得到目标物体位姿信息指导机械臂进行抓取。CN111251295A公开了一种应用于参数化零件的视觉机械臂抓取方法，通过构建零件族，将目标物体点云与零件族中模板进行匹配，快速获取目标物体的位姿信息，进而指导机械臂进行抓取。通过以上专利我们可以看出，工业实际应用场景往往为多种物体随机堆叠在一个物料箱内，要求机械臂以较高的抓取成功率完成物料箱内堆叠物体的抓取。使用标签数据监督训练的方法问题在于物体位姿预测的准确性往往决定着抓取动作的好坏，而实际的工业堆叠场景往往有各种噪音干扰，很难得到物体的精确位姿。同时按照标签的方法进行训练得到的网络，对于训练的数据集往往有较好的表现，但是一旦出现训练中未见过的物体或场景，便无法进行很好的抓取，其泛化性能差。

针对现有标签数据监督训练方法的问题，使用无监督的强化学习可以很好的完成堆叠场景中的抓取任务。强化学习的方法允许随机生成堆叠场景，场景中的物体不需要任何标签，智能体也不需要任何先验知识，智能体不断与随机生成的环境交互，通过环境反馈的奖励值进行学习。最终通过强化学习训练的智能体可以适应不同堆叠场景下的抓取任务。

发明内容

本发明的目的在于提供一种能够提升抓取成功率和稳定性的基于强化学习的堆叠场景机械臂抓取方法与装置。

本发明提供了一种基于强化学习的堆叠场景机械臂抓取方法，包括如下步骤：

S1、将多张不同旋转角度的高维特征图输入推动动作的全卷积网络和抓取动作的全卷积网络中获取动作价值最大的推动作和抓动作，并按照当前训练步数下的动作选择规则选择动作，其中，推动作奖励值r_push为推动前后场景中抓动作最大Q值maxQ_grasp之差再加上设定的偏置值；

S2、根据选择规则选择的动作进行运动规划，计算出机械臂的动作路径并执行相应动作。

可选地，在步骤S1之前还包括：提取多张不同旋转角度的高维特征图。

可选地，在提取多张不同旋转角度的高维特征图之前还包括如下步骤：

对深度相机所拍摄的RGB-D图片进行预处理得到其高度图；

将所得高度图沿Z轴相等角度旋转多次，得到对应场景下的多张高度图。

可选地，步骤S1包括如下步骤：

S1-1、将多张不同旋转角度的高维特征图输入推动动作的全卷积网络和抓取动作的全卷积网络中获得多张高维特征图逐像素的Q值；

S1-2、根据多张高维特征图逐像素的Q值，获取动作价值最大的推动作和抓动作，其中，推动作奖励值r_push为推动前后场景中抓动作的最大Q值maxQ_grasp之差再加上设定的偏置值；

S1-3、按照当前训练步数下的动作选择规则选择动作。

可选地，步骤S1-3包括如下步骤：

S1-3-1、在预设的训练步数阈值之前采用贪婪策略训练，若抓动作的最大Q值大于推动作的最大Q值时，即maxQ_grasp>maxQ_push，则选择执行抓动作，否则选择执行推动作；

S1-3-2、在预设的训练步数阈值之后，对抓动作的Q值Q_grasp设置阈值，若抓动作的最大Q值大于推动作的最大Q值，且抓动作最大Q值大于设置的阈值时，则选择执行抓动作，否则选择执行推动作。

可选地，所述Q值的计算方式为：

Q(s_t,a_t)←Q(s_t,a_t)+α[r+γmax Q(s_t+1，a_t+1)-Q(s_t,a_t)]，其中Q(s_t,a_t)表示在状态s_t下采取动作a_t的Q值、α为学习因子、r为奖励值、γ为折扣因子、Q(s_t+1，a_t+1)下一状态s_t+1采取动作a_t+1的Q值、max Q(s_t+1，a_t+1)表示下一状态s_t+1下采取动作的最大Q值。

本发明还提供一种基于强化学习的堆叠场景机械臂抓取装置，包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现所述的方法。

本发明采基于强化学习搭建针对堆叠场景下的机械臂抓取模型，可以有效地解决了现有基于位姿的抓取方法对物体种类和场景种类的限制、解决了现有基于无监督学习方法的推和抓的动作不协调问题，并提高了抓取的成功率。通过对推动作奖励值r_push为推动前后场景中抓动作的最大Q值maxQ_grasp之差再加上设定的偏置值的设置，改变了传统的推动和抓取分别单独选择的策略，创新性的提出了推动为了抓取的动作策略，实现了推动动作和抓取动作的协调配合。

在进一步的优选方案中还能获得更多的优点：例如：通过对抓动作Q_grasp阈值的设置进行动作筛选，剔除了一些次优的抓取动作，从而达到提高抓取成功率的目的。例如：通过分阶段训练智能体，以达到初始阶段贪婪策略更快学习和训练后期通过抓动作Q_grasp阈值过滤次优动作，从而达到提高抓取成功率的目的。例如：本方案的物体为随机导入，随机生成抓取场景，未引入任何先验知识，保障了训练过程的随机性和多样性，从而达到通过得到一个通用性和鲁棒性更高的智能体的目的。

附图说明

图1为本发明实施例提供的基于强化学习的堆叠场景机械臂抓取方法的流程示意图；

图2为本发明实施例提供的相机拍摄的场景RGB图；

图3为本发明实施例提供的RGB图对应的深度图；

图4为本发明实施例提供的场景RGB高度图；

图5为本发明实施例提供的RGB高度图对应深度图；

图6为本发明实施例提供的抓取动作的热图；

图7为本发明实施例提供的推动动作的热图；

图8为本发明实施例提供的在不同步数学习阶段的流程图；

图9为本发明提出的创新方法(New)与传统方法(Traditional)相比的效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是根据本发明一个实施例的基于强化学习的堆叠场景机械臂抓取方法流程示意图，包含了方法的全部步骤。对深度相机所拍摄的RGB-D图片进行预处理得到其高度图；将所得高度图沿Z轴相等角度旋转多次，得到对应场景下的多张高度图；提取多张不同旋转角度的高维特征图；将多张不同旋转角度的高维特征图输入推动动作的全卷积网络和抓取动作的全卷积网络中获取动作价值最大的推动作和抓动作，并按照当前训练步数下的动作选择规则选择动作，其中，推动作奖励值r_push为推动前后场景中抓动作的最大Q值maxQ_grasp之差再加上设定的偏置值；根据选择规则选择的动作进行运动规划，计算出机械臂的动作路径并执行相应动作。

一、对于图像的获取和图像的预处理方法

输入：1张RGB-D图片

输出：16张高度图

通过深度相机拍摄一张当前场景下的RGB-D图片，如图2和图3所示。然后通过一个固定位置的相机捕捉RGB-D图像，将数据投影到3D点云上，并在重力方向上垂直向上反向投影，以构建具有颜色(RGB)和从底部高度(D)通道的高度图图像，如图4和图5所示。将得到的高度图沿Z轴方向顺时针等角度旋转16次，即每隔22.5°旋转1次并保存一张高度图，共得到16张高度图，并将这16张高度图作为图片预处理的输出。此处高度图的旋转角度决定了后面推动动作的方向和抓取时夹爪旋转的角度。

二、特征提取方法

输入：16张高度图

输出：16张特征图

将16张高度图作为输入，用在ImageNet上预训练好的DenseNet-121对16张高度图进行特征提取，得到16张特征图作为输出。其中输入的每一张高度图包含两部分信息，一部分为颜色(RGB)的高度图，另一部分为深度(D)的高度图。此时有两个平行的DenseNet-121分别处理颜色高度图和深度高度图。提取颜色特征的DenseNet-121输入为224x224x3的RGB图片，输出为1024x1的彩色高度特征。提取深度特征的DenseNet-121输入为224x224x3的DDD图片，输出为1024x1的深度高度特征。将彩色高度特征和深度高度特征拼接起来，得到2048x1的特征图，即为每张输入高度图输出的高维特征图。共有16张高度图输入，对应16张特征图输出。

三、动作选择

输入：16张特征图

输出：执行动作(推动或抓取)和动作的作用点坐标

本部分包含两个平行的全卷积网络FCN_grasping和FCN_pushing分别负责预测输入的16张特征图逐像素的Q值，从而得到Q_grasp(s_t,a_t)和Q_push(s_t,a_t)的热图，如图6和图7所示。

本实施例中的动作选择是利用强化学习中的Q-learning算法生成的。强化学习的基本原理为通过智能体不断地与环境交互，交互的过程中智能体会收到来自环境的奖励，当智能体的动作满足任务要求时，会得到来自环境的正向奖励值，智能体通过不断地探索，最终掌握针对不同环境下的最优决策能力。

Q-learning的迭代公式可计算出Q值如下所示：

其中，学习因子α决定了智能体从每一步迭代中学习多少。当α过大时可能出现在最优解附近震荡，无法收敛的情况，当α过小可能出现收敛速度慢的问题。综合考虑收敛的效果和速度，因而将学习率α取为0.0001。

折扣因子γ决定了智能体在迭代过程中对动作的当前收益和未来收益的平衡，其取值范围为0≤γ≤1。当γ的取值越大时智能体越看重未来收益，γ的取值越小时智能体越看重当下的收益。综合考虑当下和未来的收益，因而将折扣率γ取为0.5。

贪婪系数ε决定了智能体在选择动作时是选择奖励值最大的动作还是随机选择动作，其取值范围为0≤ε≤1。当ε取0.1时表示有10％的概率随机选择动作，90％的概率选择得到最大奖励的动作。即ε越大其对动作空间的探索越大，ε越小其选择动作越优。综合考虑智能体随机探索动作空间和选择最优的动作，本实施例将贪婪系数ε初始值设为0.5，按照0.9998ⁿ的比例系数衰减到0.1(n为训练步数)。即初始时存在50％概率随机选择动作，迭代到一定步数后为10％的概率随机选择动作。

损失函数为Huber损失函数，如下式

其中，Q(s_t,a_t)为网络预测的s_t状态下执行动作a_t的Q值，y_t为真实的s_t状态下执行动作a_t的Q值。

在强化学习中最需要关注的就是智能体的状态值、动作空间和奖励值。在实施例中智能体的状态值就为相机所拍摄的当前的场景。智能体可以采取的动作为推动和抓取两种动作，每种动作都是逐像素进行采样的。也就是经过图像预处理模块得到的16张224x224像素的高度图的每一个像素都有可能执行抓取动作或推动动作，这些动作共同构成了包含1605632(16*224*224*2)个动作值的动作空间。具体而言当执行抓取动作时，夹爪的中间位置对应预测出的抓取像素点，将夹爪在预测抓取像素点深度的基础上再向下移动一定距离，闭合夹爪完成抓取动作。因为待抓取物体的高度为大部分5厘米，夹爪向下移动的距离就为其夹住物体的高度，理论上该高度取值在0和5厘米之间，本实施例将夹爪向下移动距离取为3厘米，可实现稳定抓取。当执行推动动作时，将夹爪闭合，沿着预测推动的像素点，朝16个方向(输入的图片等角度旋转16次)中的一个方向推动一定距离。待抓取区域的大小为44.8cm*44.8cm，需要保证推动距离足够大，能在待抓取区域内有效的改变场景，同时又不会因为推动距离过大，将物体推出待抓取区域。理论推动距离取值在0和22.4厘米之间，本实施例取值为10厘米可达到较好效果。奖励值分为推动作奖励值r_push和抓动作奖励值r_grasp。抓动作奖励值r_grasp为，抓取成功的奖励值为1，抓取失败的奖励值为0，当机械臂夹爪抓住物体并抬高10厘米时，则认为抓取成功。推动作奖励值r_push为推动前后场景中抓动作最大Q值maxQ_grasp之差再加上设定的偏置值，偏置值为0.3，将推动的奖励设置为与推动前后场景的最大抓动作Q_grasp值相关，很好的体现了推动为抓取服务的思想。此处将推动作奖励值r_push为推动前后场景中抓动作最大Q_grasp之差再加0.3的偏置，因为抓取成功的奖励值为1，所以要想实现推动为抓取服务的目的，推动的奖励值要在0.5附近，这样才能保证推和抓动作的协调，避免因为推的奖励过大或过小出现只推不抓或只抓不推的现象。推动前后整个抓取场景中抓取的最大Q值之差大部分集中在0.1-0.2之间，因此需要再加一个0.3的偏置，使推动的奖励值大部分在0.5附近，使智能体得到较好训练。与传统的方法相比较，传统方法一般将推的奖励设为固定值，推成功时奖励值为0.5，推失败时奖励值为0，推的动作改变了场景则认为推动动作成功。传统方法的推动动作以固定奖励值来评估，且只要改变场景就给推动奖励值，而不评判推动后场景往好的方向改善还是向坏的方向发展。本实施例相对与传统的奖励方法，只有推动使场景向着有利于抓取的方向发展的时候，智能体才会得到正向的奖励，且此奖励值有传统的固定0.5的奖励变成了弹性奖励，具体数值受推动动作对下一步抓取的改善程度调控，保障了智能体的推动动作朝着改善场景的方向发展。通过该奖励策略训练出来的智能体在推动和抓取的协调性上要优于传统奖励函数的方法。

考虑到智能体在不同时期的学习需求不同，在初始时期侧重于大量和环境交互，以习得针对不同场景做出最优决策的能力，在后期训练侧重于选择更加优质的动作。由训练过程中抓取成功率随训练步数的变化趋势可以看出，在前2500步时抓取的成功率随着训练步数飞速增长，当训练到达2500步至6000步时，抓取成功率随着训练步数增长缓慢，训练达到6000至10000步时训练的成功率基本不发生较大波动，训练基本达到收敛。因此本实施例针对智能体不同学习阶段的需求，预设的训练步数阈值4500步之前使用贪婪策略的方法，当抓取的Q_grasp值大于推动的Q_push值时，就采取抓取动作，否则采取推动动作。智能体初始阶段的随机探索概率为50％，以保障初期的智能体尽可能多的对不同的场景进行各种动作的尝试，训练其针对不同场景的决策能力。在训练步数阈值4500步之后，使用贪婪策略的同时，给抓取的Q_grasp引入1.5的阈值，即当同时满足抓取maxQ_grasp>maxQ_push且maxQ_grasp>1.5时执行抓取动作，否则执行推动动作，其流程图如附图8所示。相对于传统的整个训练过程采取贪婪策略的方法，本方案考虑智能体不同阶段的训练需求，使训练出的智能体针对堆叠场景表现出更好的性能。

综上所述传统方法训练和本发明创新方法训练的抓取成功率随训练步数的变化，如图9所示。从图9中可以看出，本发明所提出的创新方法(New)与传统方法(Traditional)相比，在前4500步其抓取成功率相差不大，随着训练步数的增加，使用本发明所提出的方法明显在抓取成功率和成功抓取的稳定性上要优于传统方法，使用本发明所提出的方法的抓取成功率基本稳定在了传统方法抓取成功率的峰值之上，验证了本专利所提出创新性方法的实际效果。

四、动作执行

输入：执行动作(推动或抓取)和动作的作用点坐标

输出：机械臂执行推动或抓取动作

机械臂根据动作选择选定的动作和执行该动作的坐标点位置，通过逆运动学求解出机械臂达到目标点各关节点要进行的旋转和平移运动。

在执行抓取动作时，机械臂的夹爪中心点与抓取点在同一条铅垂线上，机械臂按照深度信息移动到抓取点位置，然后再向下移动3厘米，夹紧夹爪将物体抓住，完成抓取动作。在执行推动动作时，机械臂夹爪闭合，移动到推动动作点坐标处，按照输入图片旋转的16个角度确定推动方向，推动10厘米。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于强化学习的堆叠场景机械臂抓取方法，其特征在于，包括如下步骤：

S1、将多张不同旋转角度的高维特征图输入推动动作的全卷积网络和抓取动作的全卷积网络中获取动作价值最大的推动作和抓动作，并按照当前训练步数下的动作选择规则选择动作，其中，推动作奖励值r_push为推动前后场景中抓动作的最大Q值maxQ_grasp之差再加上设定的偏置值；

S2、根据选择规则选择的动作进行运动规划，计算出机械臂的动作路径并执行相应动作；

其中，步骤S1包括如下步骤：

S1-3、按照当前训练步数下的动作选择规则选择动作；

其中，步骤S1-3包括如下步骤：

2.根据权利要求1所述的基于强化学习的堆叠场景机械臂抓取方法，其特征在于，在步骤S1之前还包括：提取多张不同旋转角度的高维特征图。

3.根据权利要求2所述的基于强化学习的堆叠场景机械臂抓取方法，其特征在于，在提取多张不同旋转角度的高维特征图之前还包括如下步骤：

对深度相机所拍摄的RGB-D图片进行预处理得到其高度图；

4.根据权利要求1所述的基于强化学习的堆叠场景机械臂抓取方法，其特征在于，所述Q值的计算方式为：

5.一种基于强化学习的堆叠场景机械臂抓取装置，其特征在于，包括：包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现如权利要求1至4中任一项所述的方法。