CN117840981A - 一种机器人基于先前最少信息量抓取不熟悉物体的方法 - Google Patents

一种机器人基于先前最少信息量抓取不熟悉物体的方法 Download PDF

Info

Publication number
CN117840981A
CN117840981A CN202211215805.9A CN202211215805A CN117840981A CN 117840981 A CN117840981 A CN 117840981A CN 202211215805 A CN202211215805 A CN 202211215805A CN 117840981 A CN117840981 A CN 117840981A
Authority
CN
China
Prior art keywords
robot
learning
strategy
objects
grabbing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211215805.9A
Other languages
English (en)
Inventor
张云飞
王衍军
丁泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hui Zhi Xing Chen Technology Co ltd
Original Assignee
Shenzhen Hui Zhi Xing Chen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hui Zhi Xing Chen Technology Co ltd filed Critical Shenzhen Hui Zhi Xing Chen Technology Co ltd
Priority to CN202211215805.9A priority Critical patent/CN117840981A/zh
Publication of CN117840981A publication Critical patent/CN117840981A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)

Abstract

一种机器人基于先前最少信息量抓取不熟悉物体的方法。本发明引入了一种无需模型的深度强化学习(DRL)的抓取方案。这个框架称之为深度强化抓取策略(DRGP)。我们的系统只需在简单的几何对象上训练,就可以在新的对象上有效地进行泛化。所提出的自学习系统强调非策略学习方法,并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络,将视觉观察映射为具有不同采样点的密集像素Q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后,所获得的知识成功地转移到现实生活场景中,并对新的对象(未见过的对象)进行泛化。

Description

一种机器人基于先前最少信息量抓取不熟悉物体的方法
技术领域:
本申请涉及机器人自学习算法,通过自学习,机器人能够适应新的应用场景。
技术背景:
基于很少的先验知识来抓取不熟悉的物体(训练期间未见)是机器人操纵中的一项具有挑战性的工作。近来的解决方案通常需要对目标对象的信息作提前定义(如姿势估计或三维CAD模型)或特定任务的训练数据。然而,这使得它很难在新的对象上进行泛化。
本发明引入了一种无需模型的深度强化学习(DRL)的抓取方案。这个框架称之为深度强化抓取策略(DRGP)。我们的系统只需在简单的几何对象上训练,就可以在新的对象上有效地进行泛化。该方法既不需要特定任务的训练数据,也不需要预定义的对象信息。所提出的自学习系统强调非策略学习方法,并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络,将视觉观察映射为具有不同采样点的密集像素Q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后,所获得的知识成功地转移到现实生活场景中,并对新的对象(未见过的对象)进行泛化。我们使用六自由度机器人操纵器和双指抓取器进行了实验。实验结果显示,仅用几个小时的训练,基于之前的最少限度的知识,该机器人就能获得良好的性能。
发明内容:
我们提出一种基于学习方法的可扩展的机器人抓取方法,称为深度强化抓取策略(DRGP)。1)一种基于无模型DRL的端到端自学习方法。我们的智能体(Agent,即机器人机械手)从头开始学习,从视觉观察到决策,通过试错的方式,以非策略Q-learning框架的形式进行训练。DRGP不同于传统的先验方法,它需要启发式或硬编码参数。
我们利用Q-learning的概念来解决机器人学习抓取动作的问题。机器人通过执行定义的动作与环境进行反复交互。根据环境中可能发生的变化,将响应作为奖励给机器人。智能体通过将未来的奖励最大化来逐步学习,这个过程不断地重复,直到环境中的问题得到解决。通过试错过程进行不同的动作组合。机器人寻找最佳的序列,直到环境达到终点状态。
2)一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后,它针对新的物体,将其归纳为现实世界的场景。其训练不需要:1)特定于任务的再训练数据2)目标对象的预定义信息。DRGP与其他的抓取系统形成鲜明的对比,而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解,如姿势估计、类别分类、稳定的抓取、三维对象CAD模型等)。
训练环节在V-REP(3D机器人仿真软件)中,使用UR5机械手和双指平行钳夹持器进行模拟训练。然后将获得的知识转移到新的目标物体上进行物理实验。我们的研究结果:
1)证明了用最小的训练数据集训练自学视觉负担抓取模型的可能性;2)成功地测试了强调泛化需求的多样化任务。
附图说明:
图1为本发明提出的系统的整体架构图。
图2展示了使用多个新的家用物体(随机放置在工作空间内)实现的泛化实验。该机器人仅在之前从模拟训练会话中获得的最少知识上进行高效操作。
图3展示了深度神经网络,它以最高的质量选择机器人要作出的动作。
具体实施方式:
本节从感知网络、训练协议和智能体的目标开始,对本发明系统的详细步骤进行说明。
图1展示了本发明系统的整体架构。工作空间是由RGB-D摄像头通过视觉捕捉观察到的。Realsense摄像头固定放置在工作空间中的眼对手配置,如图2所示。机器人工作空间是预定义的,它是以像素分辨率来确定的,空间输入像素在三维工作空间中代表的空间输入像素。每个状态st(工作空间在特定时间t)被建模为高度图场景,将捕获的数据投影到3D点云上。预期的机器人的行为称为基元行为ψ。运动基元行为定义了在特定状态st时的动作at。如公式1所示,从高度图表示场景投射出来的p决定了执行动作at的3D位置。
自上而下的夹持器的中点在On处的中点用p表示,其中On是方向=16或32中的一个。感知网络被设计成前馈式全卷积神经网络(FCN)。感知网络的输入是在状态st时的高度图图像表示。输出端从场景状态st的密集像素图(可视化的热图)中推导出Q值(如图1所示)。来自FCN的Q值可以预测原始行为ψ在三维位置p的状态st的未来预期回报。原始行为ψ在st处执行(p,On),并立即获得相应的奖励Rat。FCN架构有两个并行的121层DenseNet预训练的ImageNet数据集。第一个DenseNet层输入的是RGB彩色图像,第二个是深度通道DDD,它们都是高度图图像表示的深度通道。输入的高度图图像被旋转On,On是方向数。为了获得更好的性能,我们测试了On分别为16及32时的效果,发现旋转后的图像分别在22.5°或11.25°的角度下,产生了多倍的定向动作。然后,在旋转的热图图像中,其中一个抓取动作被指定为定向动作基元之一。因此,FCN的输入为On旋转的高度图,输出为'On像素的Q值的像素图。候选基元动作是所有像素图中Q值最高的像素图,且存在
我们的无模型DRL的奖励策略简单地设计为:当抓取尝试成功完成时,奖励策略为Rψ(st,st+1)=1。这里采用随机梯度下降的迭代优化方法训练我们的FCN,学习率为0.0001,权重衰减为2-5。在每次迭代(i)时,根据Huber损失函数训练出的学习模型,如下所示:
其中Qi为迭代i时网络的参数,目标参数表示为。该系统在PyTorch平台上实现,并在GPU支持下(Nvidia RTX 2080Ti)进行了数千次抓取训练。训练风格采用经验重放和基于随机排名的优先级训练。
在智能体机器人的目标方面,我们的任务被表述为一个马尔科夫决策过程(MDP),其中,st是特定时间t时的状态,at表示为t时的动作,π(st)是根据π(s|a)的作出的策略。机器人根据状态st做出决策,并相对于策略π(st)执行动作at。此后,机器人获得定义为Rat(st,st+1)的瞬间对应奖励,并移动到新的过渡状态st+1。回报奖励通过告知哪些动作状态对是好的,以提高智能体机器人的理解能力。下面的公式中的Gt是所有状态中依次获得的总预期奖励。
其中γ∈[0,1]为贴现系数。
智能体的目标是寻求最优策略π*,使未来回报的预期收益之和最大化。最佳策略π*应该优于或等于所有其他策略。深度神经网络用于求解行动值函数Qπ(s,a)=[Gt|St],该函数计算出可能的行动质量。图3显示了状态st是网络的输入,输出是质量最高的动作。策略π是智能体可以考虑的在当前状态下决定采取哪种行动的集合,策略将状态st映射到行动at上,如公式4所示。
最佳策略π*是选择质量最高的最佳行动,使行动与价值函数最大化的决策,用方程5表示。最大化可以通过选择一个行动at(在所有可能的行动中)来实现,其中包括Qπ(s,a)中的最高值。
在Q-learning中,根据Q(s,a)选择使Q的最高值,目标策略是贪婪式的,目标策略如下所示:
与vanilla实现不同,双深度Q-learning将任务分解为动作选择和动作评估。目标网络为给定状态st时的每个动作a-i计算Q(s,a-i)。这里需要使用贪婪的确定性策略来找到最高值Q(s,a-i),并决定动作a-i。下面方程的右侧称为时差目标(TD-Target)。它是在当前状态下给予智能体的瞬间奖励r=Rat(st,s')和折现值之和,其中a=at+1是下一个状态s=st+1的行动。
在方程8中,学习目标被设计为Q(st,at)与TD-目标之间的距离最小化。该目标迭代地使Q(st,at)与目标ytDubleQ的时域误差Li最小化。
在TD-学习方法中计算出任意动作值Q(st,at)的时差(即Q(st,at)的两个值在执行动作at之前和之后的状态st的两个值的差异)。然后,TD用于更新Q(st,at)的值,直到动作值Q(st,at)收敛到真实值为止。

Claims (2)

1.一种基于无模型DRL的端到端自学习方法。我们的智能体(Agent,即机器人机械手)从头开始学习,从视觉观察到决策,通过试错的方式,以非策略Q-learning框架的形式进行训练。DRGP不同于传统的先验方法,它需要启发式或硬编码参数。
我们利用Q-learning的概念来解决机器人学习抓取动作的问题。机器人通过执行定义的动作与环境进行反复交互。根据环境中可能发生的变化,将响应作为奖励给机器人。智能体通过将未来的奖励最大化来逐步学习,这个过程不断地重复,直到环境中的问题得到解决。通过试错过程进行不同的动作组合。机器人寻找最佳的序列,直到环境达到终点状态。
2.一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后,它针对新的物体,将其归纳为现实世界的场景。其训练不需要:1)特定于任务的再训练数据2)目标对象的预定义信息。DRGP与其他的抓取系统形成鲜明的对比,而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解,如姿势估计、类别分类、稳定的抓取、三维对象CAD模型等)。
CN202211215805.9A 2022-10-09 2022-10-09 一种机器人基于先前最少信息量抓取不熟悉物体的方法 Pending CN117840981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211215805.9A CN117840981A (zh) 2022-10-09 2022-10-09 一种机器人基于先前最少信息量抓取不熟悉物体的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211215805.9A CN117840981A (zh) 2022-10-09 2022-10-09 一种机器人基于先前最少信息量抓取不熟悉物体的方法

Publications (1)

Publication Number Publication Date
CN117840981A true CN117840981A (zh) 2024-04-09

Family

ID=90533174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211215805.9A Pending CN117840981A (zh) 2022-10-09 2022-10-09 一种机器人基于先前最少信息量抓取不熟悉物体的方法

Country Status (1)

Country Link
CN (1) CN117840981A (zh)

Similar Documents

Publication Publication Date Title
EP3621773B1 (en) Viewpoint invariant visual servoing of robot end effector using recurrent neural network
Finn et al. One-shot visual imitation learning via meta-learning
US20220105624A1 (en) Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
KR102168003B1 (ko) 오브젝트(들)를 캡처하는 이미지(들)에 기초하는 그리고 환경에서의 미래 로봇 움직임에 대한 파라미터(들)에 기초하여 로봇 환경에서의 오브젝트(들)의 모션(들)을 예측하는 것과 관련된 머신 학습 방법들 및 장치
James et al. 3d simulation for robot arm control with deep q-learning
Zhang et al. Towards vision-based deep reinforcement learning for robotic motion control
JP2019508273A (ja) ロボットの把持のための深層機械学習方法および装置
CN112135716B (zh) 数据高效的分层强化学习
KR20190040506A (ko) 로봇 조작을 위한 심층 강화 학습
Zhang et al. Sim-to-real transfer of visuo-motor policies for reaching in clutter: Domain randomization and adaptation with modular networks
US11823048B1 (en) Generating simulated training examples for training of machine learning model used for robot control
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
CN110076772A (zh) 一种机械臂的抓取方法及装置
JP2013193202A (ja) 人間援助型タスクデモンストレーションを使用してロボットを訓練するための方法およびシステム
US11607802B2 (en) Robotic control using action image(s) and critic network
US11833661B2 (en) Utilizing past contact physics in robotic manipulation (e.g., pushing) of an object
CN112757284A (zh) 机器人控制装置、方法和存储介质
CN113076615A (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
Kumra et al. Learning robotic manipulation tasks via task progress based Gaussian reward and loss adjusted exploration
CN117840981A (zh) 一种机器人基于先前最少信息量抓取不熟悉物体的方法
CN116852353A (zh) 一种基于深度强化学习的密集场景机械臂抓取多目标物体的方法
Wang et al. Spatial action maps augmented with visit frequency maps for exploration tasks
Wang et al. Self-supervised learning for joint pushing and grasping policies in highly cluttered environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination