CN112975977B - 一种高效的机械臂抓取深度强化学习奖励训练方法及系统 - Google Patents

一种高效的机械臂抓取深度强化学习奖励训练方法及系统 Download PDF

Info

Publication number
CN112975977B
CN112975977B CN202110244584.7A CN202110244584A CN112975977B CN 112975977 B CN112975977 B CN 112975977B CN 202110244584 A CN202110244584 A CN 202110244584A CN 112975977 B CN112975977 B CN 112975977B
Authority
CN
China
Prior art keywords
mechanical arm
reward
target object
end effector
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110244584.7A
Other languages
English (en)
Other versions
CN112975977A (zh
Inventor
刘成
汪霖
郑春燕
张晨升
李银奎
赵启轩
马俊飞
曲瑞
王新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202110244584.7A priority Critical patent/CN112975977B/zh
Publication of CN112975977A publication Critical patent/CN112975977A/zh
Application granted granted Critical
Publication of CN112975977B publication Critical patent/CN112975977B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/04Viewing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/02Programme-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type
    • B25J9/04Programme-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type by rotating at least one arm, excluding the head movement itself, e.g. cylindrical coordinate type or polar coordinate type

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种高效的机械臂抓取深度强化学习奖励训练方法及系统,涉及机器学习技术领域,使用深度摄像机识别目标物体和机器臂末端,并计算机械臂末端执行器中心与目标物体中心之间的视距,并将此返回给计算机作为判断机械臂是否能抓到目标物体的依据。机械臂末端执行器每试探一次,计算机将机械臂末端执行器相对于物体的移动距离、机械臂移动步数、机械臂每个自由度舵机转动角度之和以及是否成功抓取目标物体的加权和作为DDPG深度确定性策略梯度网络的奖励机制,利用DDPG完成端到端训练过程。本发明以改善现有机械臂控制存在的动作连贯性差、不协调的问题。

Description

一种高效的机械臂抓取深度强化学习奖励训练方法及系统
技术领域
本发明涉及机器学习技术领域,特别涉及一种高效的机械臂抓取深度强化学习奖励训练方法及系统。
背景技术
随着人工智能与机器人技术的发展,机械臂的运用越来越丰富,它就像我们的手臂一样充当着机器人的手臂。如何利用机械臂精确抓取物体成了机器人技术发展的关键问题之一。目前比较热门的机械臂精确抓取大多数使用的运动学与逆运动学的方法,通过求解运动学逆解来实现精确抓取,此方法需要考虑可解性,即考虑无解、多解等情况,计算复杂,耗费时间长。而另一种比较新颖的方式是通过强化学习使机器人拥有自己的灵魂,让它可以像动物一样在与环境交互的过程中逐渐积累经验,得到最佳的策略。
强化学习是机器学习研究中的一个新领域,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
而目前深度强化学习机械臂抓取的研究中,强化学习网络的奖励函数往往只研究了机械臂与目标物体之间的逼近距离,或者只讨论了抓取时间作为一个奖励,机械臂控制存在的动作连贯性差、不协调以及最终抓取效果达不到预期精度的缺点。
针对现有技术存在的问题,本申请提供了一种高效的机械臂抓取深度强化学习奖励训练方法及系统,改善了现有机械臂控制存在的动作连贯性差、不协调的问题。
发明内容
本发明的目的在于提供一种高效的机械臂抓取深度强化学习奖励训练方法及系统,改善了现有机械臂控制存在的动作连贯性差、不协调的问题。
本发明提供了一种高效的机械臂抓取深度强化学习奖励训练方法,包括以下步骤:
步骤1:打开深度摄像机,初始化DDPG网络,识别机械臂末端执行器与目标物体,返回机械臂末端执行器与目标物体的坐标,计算机械臂末端执行器与目标物体之间的距离d;
步骤2:初始化机械臂末端执行器相对于目标物体的移动距离奖励r1、步数奖励r2、步数s、机械臂每个自由度舵机转动角度之和奖励r3、是否抓取成功奖励r4以及总的奖励函数R,令步数s=0;
步骤3:根据当前状态S,由DDPG策略网络生成机械臂动作组,并执行,得到环境状态S’;
步骤4:计算当前状态S’下机械臂末端执行器与目标物体之间的距离d’;
步骤5:计算当前状态S’下的移动距离奖励r1,步数奖励r2,机械臂每个自由度舵机转动角度之和奖励r3
步骤6:令S=S’,d=d’;
步骤7:判断机械臂是否成功抓取物体,如果成功抓取则给系统是否抓取成功奖励r4=+1,结束训练;反之则给系统是否抓取成功奖励r4=-1,重复步骤3,直到成功抓取物体结束训练。
进一步地,所述步骤S1中深度摄像机识别机械臂末端执行器与目标物体后,向计算机返回机械臂末端执行器的坐标(xh,yh)、深度dh、目标物体的坐标(xo,yo)、深度do,使用欧式距离计算机械臂末端执行器与目标对象之间的距离d,计算公式如下:
Figure BDA0002963601920000031
进一步地,所述步骤S2初始化机械臂末端执行器相对于目标物体的移动距离奖励r1、步数奖励r2、机械臂每个自由度舵机转动角度之和奖励r3以及是否抓取成功奖励r4,令上述值均为0,则总的奖励数R为:
R=αr1+βr2+γr3+δr4 (2)。
进一步地,所述步骤S4中利用欧式距离计算当前状态S下机械臂末端执行器与目标物体之间的距离d’。
进一步地,所述步骤S5中计算在状态S下的奖励方法为:
S51:计算机械臂末端执行器相对目标物体的移动距离△d=d’-d,移动距离奖励r1=-△d;
S52:步数s=s+1,步数奖励r2=-s;
S53:计算机械臂每个自由度舵机转动角度之和为
Figure BDA0002963601920000032
Figure BDA0002963601920000033
进一步地,应用一种高效的机械臂抓取深度强化学习奖励训练方法的训练系统,包括:多轴机械臂,深度摄像机,计算机,柔性触觉传感器和目标物体;
所述柔性触觉传感器安装在所述多轴机械臂末端执行器的抓取装置内侧,辅助判断目标物体是否被抓取到,所述深度摄像机用于识别并定位所述目标物体与多轴机械臂的末端执行器,并计算机械臂末端执行器中心与目标物体中心之间的空间距离;所述柔性触觉传感器、深度摄像机均与计算机电连接,进行数据通信和图像的处理。
进一步地,所述多轴机械臂为六自由度机械臂。
与现有技术相比,本发明具有如下显著优点:
本发明提出的一种高效的机械臂抓取深度强化学习奖励训练方法及系统,利用了机械臂末端执行器相对于物体的移动距离、机械臂移动次数和机械臂末端执行器是否进入待抓取范围的加权和作为DDPG网络的奖励机制,解决了传统方法计算复杂的问题。同时引入这个机制能改善现有机械臂控制存在的动作连贯性差、不协调的问题。
附图说明
图1为本发明实施例提供的机械臂抓取深度强化学习奖励训练流程图;
图2为本发明实施例提供的机械臂抓取深度强化学习奖励训练系统结构图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参照图1-2,本发明提供了一种高效的机械臂抓取深度强化学习奖励训练方法,包括以下步骤:
步骤1:打开深度摄像机,初始化DDPG网络,识别机械臂末端执行器与目标物体,并返回机械臂末端执行器与目标物体的坐标,计算机械臂末端执行器与目标物体之间的距离d;
步骤2:初始化机械臂末端执行器相对于目标物体的移动距离奖励r1(又称逼近奖励)、步数奖励r2、步数s、机械臂每个自由度舵机转动角度之和奖励r3(又称角度奖励)、是否抓取成功奖励r4以及总的奖励函数R,令步数s=0;
步骤3:根据当前状态S,由DDPG策略网络生成机械臂动作组,并执行,得到环境状态S’;
步骤4:计算当前状态S’下机械臂末端执行器与目标物体之间的距离d’;
步骤5:计算当前状态S’下的移动距离奖励r1,步数奖励r2,机械臂每个自由度舵机转动角度之和奖励r3
步骤6:令S=S’,d=d’;
步骤7:判断机械臂是否成功抓取物体,如果成功抓取则给系统是否抓取成功奖励r4=+1,结束训练;反之则给系统是否抓取成功奖励r4=-1,重复步骤3,直到成功抓取物体结束训练。
实施例1
所述步骤S1中深度摄像机识别机械臂末端执行器与目标物体后,向计算机返回机械臂末端执行器的坐标(xh,yh)、深度dh、目标物体的坐标(xo,yo)、深度do,并使用欧式距离计算机械臂末端执行器与目标对象之间的距离d,计算公式如下:
Figure BDA0002963601920000051
实施例2
所述步骤S2初始化机械臂末端执行器相对于目标物体的移动距离奖励r1、步数奖励r2、机械臂每个自由度舵机转动角度之和奖励r3以及是否抓取成功奖励r4,令上述值均为0,则总的奖励数R为:
R=αr1+βr2+γr3+δr4 (2)。
实施例3
所述步骤S5中计算在状态S下的奖励方法为:
S51:计算机械臂末端执行器相对目标物体的移动距离△d=d’-d,移动距离奖励r1=-△d;
S52:步数s=s+1,步数奖励r2=-s;
S53:计算机械臂每个自由度舵机转动角度之和为
Figure BDA0002963601920000052
Figure BDA0002963601920000053
实施例4
一种高效的机械臂抓取深度强化学习奖励训练方法的训练系统,其特征在于,包括:多轴机械臂,深度摄像机,计算机,柔性触觉传感器和目标物体;
所述柔性触觉传感器安装在所述多轴机械臂末端执行器的抓取装置内侧,用于辅助判断目标物体是否被成功抓取,所述深度摄像机用于识别并定位所述目标物体与多轴机械臂末端执行器,并计算机械臂末端执行器中心与目标物体中心之间的空间距离;所述柔性触觉传感器、深度摄像机均与计算机电连接,进行数据通信和图像的处理。
其中,所述多轴机械臂为六自由度机械臂。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (6)

1.一种高效的机械臂抓取深度强化学习奖励训练方法,其特征在于,包括以下步骤:
步骤S 1:打开深度摄像机,初始化DDPG网络,识别机械臂末端执行器与目标物体,返回机械臂末端执行器与目标物体的坐标,计算机械臂末端执行器与目标物体之间的距离d;
步骤S 2:初始化机械臂末端执行器相对于目标物体的移动距离奖励r1、步数奖励r2、步数s、机械臂每个自由度舵机转动角度之和奖励r3、是否抓取成功奖励r4以及总的奖励函数R,令步数s=0;
步骤S 3:根据当前状态S,由DDPG策略网络生成机械臂动作组,并执行,得到环境状态S’;
步骤S 4:计算当前状态S’下机械臂末端执行器与目标物体之间的距离d’;
步骤S 5:计算当前状态S’下的移动距离奖励r1,步数奖励r2,机械臂每个自由度舵机转动角度之和奖励r3
所述步骤S5中计算在状态S’下的奖励方法为:
S51:计算机械臂末端执行器相对目标物体的移动距离△d=d’-d,移动距离奖励r1=-△d;
S52:步数s=s+1,步数奖励r2=-s;
S53:计算机械臂每个自由度舵机转动角度之和为
Figure FDF0000018180450000011
Figure FDF0000018180450000012
步骤S 6:令S=S’,d=d’;
步骤S 7:判断机械臂是否成功抓取物体,如果成功抓取则给系统是否抓取成功奖励r4=+1,结束训练;反之则给系统是否抓取成功奖励r4=-1,重复步骤S 3,直到成功抓取物体结束训练。
2.如权利要求1所述的一种高效的机械臂抓取深度强化学习奖励训练方法,其特征在于,所述步骤S1中深度摄像机识别机械臂末端执行器与目标物体后,向计算机返回机械臂末端执行器的坐标(xh,yh)、深度dh、目标物体的坐标(xo,yo)、深度do,使用欧式距离计算机械臂末端执行器与目标对象之间的距离d,计算公式如下:
Figure FDF0000018180450000021
3.如权利要求1所述的一种高效的机械臂抓取深度强化学习奖励训练方法,其特征在于,所述步骤S2初始化机械臂末端执行器相对于目标物体的移动距离奖励r1、步数奖励r2、机械臂每个自由度舵机转动角度之和奖励r3以及是否抓取成功奖励r4,令上述值均为0,则总的奖励数R为:
R=αr1+βr2+γr3+δr4 (2)。
4.如权利要求1所述的一种高效的机械臂抓取深度强化学习奖励训练方法,其特征在于,所述步骤S4中利用欧式距离计算当前状态S’下机械臂末端执行器与目标物体之间的距离d’。
5.应用权利要求1所述的一种高效的机械臂抓取深度强化学习奖励训练方法的训练系统,其特征在于,包括:多轴机械臂,深度摄像机,计算机,柔性触觉传感器和目标物体;
所述柔性触觉传感器安装在所述多轴机械臂末端执行器的抓取装置内侧,用于辅助判断目标物体是否被抓取到,所述深度摄像机用于识别并定位所述目标物体与多轴机械臂末端执行器,并计算机械臂末端执行器中心与目标物体中心之间的空间距离;所述柔性触觉传感器、深度摄像机均与计算机电连接,进行数据通信和图像的处理。
6.如权利要求5所述的一种高效的机械臂抓取深度强化学习奖励训练方法的训练系统,其特征在于,所述多轴机械臂为六自由度机械臂。
CN202110244584.7A 2021-03-05 2021-03-05 一种高效的机械臂抓取深度强化学习奖励训练方法及系统 Expired - Fee Related CN112975977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110244584.7A CN112975977B (zh) 2021-03-05 2021-03-05 一种高效的机械臂抓取深度强化学习奖励训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110244584.7A CN112975977B (zh) 2021-03-05 2021-03-05 一种高效的机械臂抓取深度强化学习奖励训练方法及系统

Publications (2)

Publication Number Publication Date
CN112975977A CN112975977A (zh) 2021-06-18
CN112975977B true CN112975977B (zh) 2022-08-09

Family

ID=76352906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110244584.7A Expired - Fee Related CN112975977B (zh) 2021-03-05 2021-03-05 一种高效的机械臂抓取深度强化学习奖励训练方法及系统

Country Status (1)

Country Link
CN (1) CN112975977B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114474060B (zh) * 2022-02-16 2023-06-16 华南理工大学 一种工业机器人的控制方法、装置和存储介质
CN114992505A (zh) * 2022-05-05 2022-09-02 赵启轩 一种智能液氮罐
CN114789444B (zh) * 2022-05-05 2022-12-16 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法
CN114734446B (zh) * 2022-05-10 2024-06-18 南京理工大学 基于改进的强化学习算法的机械手高精度位置控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721785B2 (ja) * 2016-09-15 2020-07-15 グーグル エルエルシー ロボット操作のための深層強化学習
CN109948642B (zh) * 2019-01-18 2023-03-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN111609851B (zh) * 2020-05-28 2021-09-24 北京理工大学 一种移动型导盲机器人系统及导盲方法
CN111881772B (zh) * 2020-07-06 2023-11-07 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法

Also Published As

Publication number Publication date
CN112975977A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112975977B (zh) 一种高效的机械臂抓取深度强化学习奖励训练方法及系统
Zhong et al. A novel robot fish with wire-driven active body and compliant tail
US10717191B2 (en) Apparatus and methods for haptic training of robots
US11529733B2 (en) Method and system for robot action imitation learning in three-dimensional space
CN107627303B (zh) 一种基于眼在手上结构的视觉伺服系统的pd-smc控制方法
CN110682286A (zh) 一种协作机器人实时避障方法
CN113341706B (zh) 基于深度强化学习的人机协作流水线系统
CN115990891B (zh) 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法
CN117103282B (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
CN112171660A (zh) 一种基于深度强化学习的空间双臂系统约束运动规划方法
Yan et al. Hierarchical policy learning with demonstration learning for robotic multiple peg-in-hole assembly tasks
CN116834014A (zh) 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统
CN115918377B (zh) 树果自动采摘机的控制方法、控制装置及树果自动采摘机
CN113967909B (zh) 基于方向奖励的机械臂智能控制方法
Qi et al. Reinforcement learning control for robot arm grasping based on improved DDPG
Xu et al. Design of underwater humanoid flexible manipulator motion control system based on data glove
CN111015676B (zh) 基于无手眼标定的抓取学习控制方法、系统、机器人及介质
Kawagoshi et al. Visual servoing using virtual space for both learning and task execution
CN117140527B (zh) 一种基于深度强化学习算法的机械臂控制方法及系统
Lindner et al. Positioning of the Robotic Arm using Reinforcement Learning Policy Gradient Algorithm
Shen et al. Energy-Efficient Motion Planning and Control for Robotic Arms via Deep Reinforcement Learning
Fang et al. Deep Reinforcement Learning Enhanced Convolutional Neural Networks for Robotic Grasping
CN114789437A (zh) 仿人手臂
Hu et al. Robotics with Multi-Fingered Grippers and Deep Reinforcement Learning in Unity
CN117245666A (zh) 基于深度强化学习的动态目标快速抓取规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220809