CN117840981A

CN117840981A - 一种机器人基于先前最少信息量抓取不熟悉物体的方法

Info

Publication number: CN117840981A
Application number: CN202211215805.9A
Authority: CN
Inventors: 张云飞; 王衍军; 丁泉
Original assignee: Shenzhen Hui Zhi Xing Chen Technology Co ltd
Current assignee: Shenzhen Hui Zhi Xing Chen Technology Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2024-04-09

Abstract

一种机器人基于先前最少信息量抓取不熟悉物体的方法。本发明引入了一种无需模型的深度强化学习(DRL)的抓取方案。这个框架称之为深度强化抓取策略(DRGP)。我们的系统只需在简单的几何对象上训练，就可以在新的对象上有效地进行泛化。所提出的自学习系统强调非策略学习方法，并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络，将视觉观察映射为具有不同采样点的密集像素Q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后，所获得的知识成功地转移到现实生活场景中，并对新的对象(未见过的对象)进行泛化。

Description

一种机器人基于先前最少信息量抓取不熟悉物体的方法

技术领域：

本申请涉及机器人自学习算法，通过自学习，机器人能够适应新的应用场景。

技术背景：

基于很少的先验知识来抓取不熟悉的物体(训练期间未见)是机器人操纵中的一项具有挑战性的工作。近来的解决方案通常需要对目标对象的信息作提前定义(如姿势估计或三维CAD模型)或特定任务的训练数据。然而，这使得它很难在新的对象上进行泛化。

本发明引入了一种无需模型的深度强化学习(DRL)的抓取方案。这个框架称之为深度强化抓取策略(DRGP)。我们的系统只需在简单的几何对象上训练，就可以在新的对象上有效地进行泛化。该方法既不需要特定任务的训练数据，也不需要预定义的对象信息。所提出的自学习系统强调非策略学习方法，并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络，将视觉观察映射为具有不同采样点的密集像素Q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后，所获得的知识成功地转移到现实生活场景中，并对新的对象(未见过的对象)进行泛化。我们使用六自由度机器人操纵器和双指抓取器进行了实验。实验结果显示，仅用几个小时的训练，基于之前的最少限度的知识，该机器人就能获得良好的性能。

发明内容：

我们提出一种基于学习方法的可扩展的机器人抓取方法，称为深度强化抓取策略(DRGP)。1)一种基于无模型DRL的端到端自学习方法。我们的智能体(Agent，即机器人机械手)从头开始学习，从视觉观察到决策，通过试错的方式，以非策略Q-learning框架的形式进行训练。DRGP不同于传统的先验方法，它需要启发式或硬编码参数。

我们利用Q-learning的概念来解决机器人学习抓取动作的问题。机器人通过执行定义的动作与环境进行反复交互。根据环境中可能发生的变化，将响应作为奖励给机器人。智能体通过将未来的奖励最大化来逐步学习，这个过程不断地重复，直到环境中的问题得到解决。通过试错过程进行不同的动作组合。机器人寻找最佳的序列，直到环境达到终点状态。

2)一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后，它针对新的物体，将其归纳为现实世界的场景。其训练不需要：1)特定于任务的再训练数据2)目标对象的预定义信息。DRGP与其他的抓取系统形成鲜明的对比，而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解，如姿势估计、类别分类、稳定的抓取、三维对象CAD模型等)。

训练环节在V-REP(3D机器人仿真软件)中，使用UR5机械手和双指平行钳夹持器进行模拟训练。然后将获得的知识转移到新的目标物体上进行物理实验。我们的研究结果：

1)证明了用最小的训练数据集训练自学视觉负担抓取模型的可能性；2)成功地测试了强调泛化需求的多样化任务。

附图说明：

图1为本发明提出的系统的整体架构图。

图2展示了使用多个新的家用物体(随机放置在工作空间内)实现的泛化实验。该机器人仅在之前从模拟训练会话中获得的最少知识上进行高效操作。

图3展示了深度神经网络，它以最高的质量选择机器人要作出的动作。

具体实施方式：

本节从感知网络、训练协议和智能体的目标开始，对本发明系统的详细步骤进行说明。

图1展示了本发明系统的整体架构。工作空间是由RGB-D摄像头通过视觉捕捉观察到的。Realsense摄像头固定放置在工作空间中的眼对手配置，如图2所示。机器人工作空间是预定义的，它是以像素分辨率来确定的，空间输入像素在三维工作空间中代表的空间输入像素。每个状态s_t(工作空间在特定时间t)被建模为高度图场景，将捕获的数据投影到3D点云上。预期的机器人的行为称为基元行为ψ。运动基元行为定义了在特定状态s_t时的动作a_t。如公式1所示，从高度图表示场景投射出来的p决定了执行动作a_t的3D位置。

自上而下的夹持器的中点在O_n处的中点用p表示，其中O_n是方向＝16或32中的一个。感知网络被设计成前馈式全卷积神经网络(FCN)。感知网络的输入是在状态s_t时的高度图图像表示。输出端从场景状态s_t的密集像素图(可视化的热图)中推导出Q值(如图1所示)。来自FCN的Q值可以预测原始行为ψ在三维位置p的状态s_t，的未来预期回报。原始行为ψ在s_t处执行(p，O_n)，并立即获得相应的奖励R_at。FCN架构有两个并行的121层DenseNet预训练的ImageNet数据集。第一个DenseNet层输入的是RGB彩色图像，第二个是深度通道DDD，它们都是高度图图像表示的深度通道。输入的高度图图像被旋转O_n，O_n是方向数。为了获得更好的性能，我们测试了O_n分别为16及32时的效果，发现旋转后的图像分别在22.5°或11.25°的角度下，产生了多倍的定向动作。然后，在旋转的热图图像中，其中一个抓取动作被指定为定向动作基元之一。因此，FCN的输入为O_n旋转的高度图，输出为'O_n像素的Q值的像素图。候选基元动作是所有像素图中Q值最高的像素图，且存在

我们的无模型DRL的奖励策略简单地设计为：当抓取尝试成功完成时，奖励策略为R_ψ(s_t,s_t+1)＝1。这里采用随机梯度下降的迭代优化方法训练我们的FCN，学习率为0.0001，权重衰减为2^-5。在每次迭代(i)时，根据Huber损失函数训练出的学习模型，如下所示:

其中Q_i为迭代i时网络的参数，目标参数表示为。该系统在PyTorch平台上实现，并在GPU支持下(Nvidia RTX 2080Ti)进行了数千次抓取训练。训练风格采用经验重放和基于随机排名的优先级训练。

在智能体机器人的目标方面，我们的任务被表述为一个马尔科夫决策过程(MDP)，其中，s_t是特定时间t时的状态，a_t表示为t时的动作，π(s_t)是根据π(s|a)的作出的策略。机器人根据状态s_t做出决策，并相对于策略π(s_t)执行动作a_t。此后，机器人获得定义为R_at(s_t,s_t+1)的瞬间对应奖励，并移动到新的过渡状态s_t+1。回报奖励通过告知哪些动作状态对是好的，以提高智能体机器人的理解能力。下面的公式中的G_t是所有状态中依次获得的总预期奖励。

其中γ∈[0,1]为贴现系数。

智能体的目标是寻求最优策略π^*，使未来回报的预期收益之和最大化。最佳策略π^*应该优于或等于所有其他策略。深度神经网络用于求解行动值函数Qπ(s,a)＝[G_t|S_t]，该函数计算出可能的行动质量。图3显示了状态s_t是网络的输入，输出是质量最高的动作。策略π是智能体可以考虑的在当前状态下决定采取哪种行动的集合，策略将状态s_t映射到行动a_t上，如公式4所示。

最佳策略π^*是选择质量最高的最佳行动，使行动与价值函数最大化的决策，用方程5表示。最大化可以通过选择一个行动a_t(在所有可能的行动中)来实现，其中包括Qπ(s,a)中的最高值。

在Q-learning中，根据Q(s,a)选择使Q的最高值，目标策略是贪婪式的，目标策略如下所示：

与vanilla实现不同，双深度Q-learning将任务分解为动作选择和动作评估。目标网络为给定状态s_t时的每个动作a_-i计算Q(s,a_-i)。这里需要使用贪婪的确定性策略来找到最高值Q(s,a_-i)，并决定动作a_-i。下面方程的右侧称为时差目标(TD-Target)。它是在当前状态下给予智能体的瞬间奖励r＝R_at(s_t,s')和折现值之和，其中a＝a_t+1是下一个状态s＝s_t+1的行动。

在方程8中，学习目标被设计为Q(s_t,a_t)与TD-目标之间的距离最小化。该目标迭代地使Q(s_t,a_t)与目标y_tDubleQ的时域误差L_i最小化。

在TD-学习方法中计算出任意动作值Q(s_t,a_t)的时差(即Q(s_t,a_t)的两个值在执行动作a_t之前和之后的状态s_t的两个值的差异)。然后，TD用于更新Q(s_t,a_t)的值，直到动作值Q(s_t,a_t)收敛到真实值为止。

Claims

1.一种基于无模型DRL的端到端自学习方法。我们的智能体(Agent，即机器人机械手)从头开始学习，从视觉观察到决策，通过试错的方式，以非策略Q-learning框架的形式进行训练。DRGP不同于传统的先验方法，它需要启发式或硬编码参数。

2.一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后，它针对新的物体，将其归纳为现实世界的场景。其训练不需要：1)特定于任务的再训练数据2)目标对象的预定义信息。DRGP与其他的抓取系统形成鲜明的对比，而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解，如姿势估计、类别分类、稳定的抓取、三维对象CAD模型等)。