CN110328668B - 基于速度平滑确定性策略梯度的机械臂路径规划方法 - Google Patents

基于速度平滑确定性策略梯度的机械臂路径规划方法 Download PDF

Info

Publication number
CN110328668B
CN110328668B CN201910685553.8A CN201910685553A CN110328668B CN 110328668 B CN110328668 B CN 110328668B CN 201910685553 A CN201910685553 A CN 201910685553A CN 110328668 B CN110328668 B CN 110328668B
Authority
CN
China
Prior art keywords
training
mechanical arm
network
vector
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910685553.8A
Other languages
English (en)
Other versions
CN110328668A (zh
Inventor
吴巍
郭毓
郭健
肖潇
蔡梁
吴益飞
吴钧浩
郭飞
张冕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910685553.8A priority Critical patent/CN110328668B/zh
Publication of CN110328668A publication Critical patent/CN110328668A/zh
Application granted granted Critical
Publication of CN110328668B publication Critical patent/CN110328668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于速度平滑确定性策略梯度的机械臂路径规划方法,训练阶段构建带有作业任务反馈的机械臂仿真环境;在确定性策略梯度网络输入中引入前一步机械臂动作向量,构建基于速度平滑确定性策略梯度的强化学习网络框架;初始化网络训练参数和机械臂仿真环境;基于速度平滑确定性策略梯度网络和仿真环境获取样本,构建训练样本库,若训练样本数量达到最大样本数量,则按单次训练样本数量从训练样本库中抽取训练样本,训练速度平滑确定性策略梯度网络,否则进行下一步或者下一次仿真。本发明在确定性策略梯度网络的基础上,加入前一步速度向量作为网络输入,有效降低了关节加速度,减少了机械臂抖动。

Description

基于速度平滑确定性策略梯度的机械臂路径规划方法
技术领域
本发明涉及机械臂路径规划技术,具体涉及一种基于速度平滑确定性策略梯度的机械臂路径规划方法。
背景技术
随着机器人技术的不断发展,机械臂已逐渐代替人应用于建筑、码垛、医疗、带电作业等特种行业。传统的示教控制机械臂的方法,由于依赖人工给定路径,已不能满足复杂的应用场景和应用任务的需求。因此,机械臂自主路径规划技术是研发智能机器人的一项关键技术。
目前,基于采样路径规划和多目标优化的机械臂自主路径规划方法,能够适应不同的作业环境,但无法在线规划,且规划时间不可控。基于确定性策略梯度网络的机械臂自主路径规划方法,采用深度强化学习模型,其输出是连续动作量,可直接对应机械臂关节角度,并且由于不依赖采样规划方式,其规划时间固定,可实现机械臂在线路径规划。然而,由于没有进行平滑处理,输出的动作向量在前后时刻会有较大不同,产生过大的加速度,使机械臂产生抖动造成机械臂损伤。
发明内容
本发明的目的在于提供一种基于速度平滑确定性策略梯度的机械臂路径规划方法。
实现本发明目的的技术解决方案为:一种基于速度平滑确定性策略梯度的机械臂路径规划方法,包括训练阶段和测试阶段;
(一)训练阶段步骤如下:
步骤1、构建带有作业任务反馈的机械臂仿真环境;
步骤2,在确定性策略梯度网络输入中引入前一步机械臂动作向量,构建基于速度平滑确定性策略梯度的强化学习网络框架;
步骤3,初始化网络训练参数,包括感知机参数集合、训练样本库的最大样本数量、单次训练样本数量、最大仿真次、单次仿真最大步数和当前仿真次数;
步骤4,初始化机械臂仿真环境,包括目标位姿向量和机械臂初始状态向量,、前一步动作向量和当前步数;
步骤5,基于速度平滑确定性策略梯度网络和仿真环境获取样本,构建训练样本库,若训练样本数量达到最大样本数量,则执行步骤6,否则执行步骤7;
步骤6,按单次训练样本数量从训练样本库中抽取训练样本,训练速度平滑确定性策略梯度网络;
步骤7,判断是否完成作业任务或者当前步数是否达到单次仿真最大步数,若完成作业任务或者当前步数达到单次仿真最大步数,则执行步骤8,否则返回步骤5进行下一步仿真;
步骤8,判断当前仿真次数是否达到最大仿真次数,若达到,则结束训练过程,否则返回步骤4,进行下一次仿真;
(二)测试阶段步骤如下:
步骤1,根据实际目标位姿信息、机械臂关节角度初始化机械臂仿真环境,包括目标位姿向量、机械臂初始状态向量、前一步动作向量和当前步数;
步骤2,将当前状态向量和前一步动作向量输入速度平滑确定性策略梯度网络,得到当前动作向量;
步骤3,以当前动作向量控制机械臂运动,以此构建机械臂状态向量;
步骤4,判断机械臂是否完成作业任务,若完成则结束测试,否则返回步骤2进行下一步测试。
本发明与现有技术相比,其显著优点为:1)在确定性策略梯度网络的基础上,加入前一步速度向量作为网络输入,有效降低了关节加速度,减少了机械臂抖动;2)在损失函数中加入了对关节速度变化的惩罚项,确定了当前速度向量的大致趋势,提高了空间搜索效率,进而提高了训练速度。
附图说明
图1为基于速度平滑确定性策略梯度的机械臂路径规划流程图,其中(a)为训练阶段的流程图,(b)为测试阶段的流程图。
图2为机械臂仿真环境图。
图3为本发明构建的带有速度平滑的确定性策略梯度网络结构图。
具体实施方式
下面结合附图和具体实施例,进一步说明本发明方案。
本发明基于速度平滑确定性策略梯度的机械臂路径规划方法,以机械臂末端到达指定位姿为任务,将路径规划分为训练阶段和测试阶段,训练阶段流程如图1中的(a)所示,主要包括以下步骤:
步骤1,构建带有作业任务反馈的机械臂仿真环境,具体步骤如下:
利用虚拟仿真技术构建带有作业任务反馈的机械臂仿真环境,如图2所示。该仿真环境设有输入输出接口,输入接口可输入机械臂初始状态(机械臂各关节初始角度)、目标位姿、机械臂动作(当前机械臂关节角速度),输出接口输出机械臂当前状态、机械臂做出动作后获得的即时奖励和一个标志位(是否到达目标位姿)。在该仿真环境中,虚拟机械臂会按照输入动作做出相应动作,当机械臂达到目标位姿时,输出的标志位会为1;
步骤2,在确定性策略梯度网络输入中引入前一步机械臂动作向量,构建基于速度平滑确定性策略梯度的强化学习网络框架,具体步骤如下:
步骤2-1,搭建基于速度平滑确定性策略梯度的强化学习网络,如图3所示。
确定性策略梯度网络由两个Actor-Critic结构网络组成,分别为训练网络和目标网络。本发明在训练网络和目标网络的输入中引入前一步机械臂动作向量a-,即训练网络和目标网络的Actor部分的输入各有两个部分,分别为当前状态向量s与前一步机械臂动作向量a-,输出为当前机械臂动作向量a。Critic部分的输入各有两个部分,分别为当前状态向量s和当前机械臂动作向量a,输出为未来奖励的期望。
各网络部分都由多层感知机组成,将训练网络Critic部分、训练网络Actor部分、目标网络Critic部分、目标网络Actor部分的感知机参数集合分别定义为θQ、θμ、θQ′、θμ′,则可将四个部分的输出分别定义为Q(s,a|θQ)、μ(s,a-μ)、Q′(s,a|θQ′)、μ′(s,a-μ′)。
训练网络Critic部分的损失函数(LossFunction)定义如下:
Figure GDA0003482451740000031
其中,N为单次训练的样本数量,st为第t个样本的机械臂当前状态向量,at为第t个样本的当前步动作向量,Q(s,a|θQ)为训练网络Critic部分的输出,yt为中间变量,其定义如下:
yt=rt+γQ′(s′t,μ′(s′t,atμ′)|θQ′) (2)
式中,γ为奖励的衰减系数,rt为第t个样本的即时奖励,s′t为第t个样本在(st,at)状态下仿真出的下一步机械臂的状态向量。
训练网络Actor部分的损失函数定义如下:
Figure GDA0003482451740000041
其中,κ为速度变化惩罚系数,at-为第t个样本的前一步动作向量,at不由样本直接获得,而由式(4)得到
at=μ(st,at-μ) (4)
步骤2-2,定义样本格式,在本发明中,样本格式为(a-,s,a,s′,r),其中,a-为前一步机械臂动作向量,s′为机械臂在当前状态向量为s的情况下,作出动作a,仿真出的下一步机械臂的状态向量,r为该情况下获得的即时奖励,s′和r由步骤1中的仿真环境输出得到。
步骤3,初始化网络参数,包括初始化感知机参数集合θQ、θμ、θQ′、θμ′和训练样本库的最大样本数量TN,设置目标网络更新参数τ、奖励衰减系数γ、速度变化惩罚系数κ以及单次训练样本数量N,初始化最大仿真次数Emax和单次仿真最大步数Imax,设置当前仿真次数e=1;
步骤4,初始化机械臂仿真环境,包括随机设置目标位姿向量g和机械臂初始状态向量s1,将前一步动作向量a0设为零,并设置当前步数i=1。
步骤5,从速度平滑确定性策略梯度网络和仿真环境中获得样本,并存入样本库,具体步骤如下:
步骤5-1,将当前状态向量si和前一步动作向量ai-1作为训练网络的输入,输出当前动作ai
ai=μ(si,ai-1μ) (5)
将当前动作ai输入机械臂仿真环境,仿真出下一步的状态向量si+1以及得到即时奖励ri
将前一步动作向量ai-1、当前状态向量si、当前动作向量ai、下一步状态向量si+1、即时奖励ri构建样本(ai-1,si,ai,si+1,ri)存入训练样本库;
步骤5-2,判断训练样本数量是否达到最大样本数量TN,如果达到,则执行步骤6,如果未达到,则执行步骤7;
步骤6,从样本库中抽取训练样本,训练速度平滑确定性策略梯度网络并更新参数,具体步骤如下:
从样本库中按单次训练样本数量N抽取训练样本,训练速度平滑确定性策略梯度网络。
对于训练网络,采用梯度下降法,以公式(1)作为训练网络Critic部分的损失函数更新训练网络Critic部分的感知机参数集合,以公式(3)作为训练网络Actor部分的损失函数更新训练网络Actor部分的感知机参数集合;
对于目标网络,按如下公式更新目标网络Critic部分和目标网络Actor部分参数集合:
Figure GDA0003482451740000051
步骤7,判断是否完成作业任务或者当前步数是否达到单次仿真最大步数Imax,若i=Imax或完成作业任务,则转至步骤8,否则更新当前步数,令i←i+1,并转至步骤5;
步骤8,判断当前仿真次数是否达到最大仿真次数Emax,若e=Emax,则结束训练过程,否则更新当前仿真次数,即令e←e+1,并返回步骤4;
测试阶段流程如图1中的(b)所示,主要包括以下步骤:
步骤1,初始化机械臂状态,具体方法为:按实际目标位姿信息构建目标位姿向量g,按实际机械臂关节角度构建初始状态向量s1,并将前一步动作向量a0设为零,设置当前步数i=1;
步骤2,将当前状态向量和前一步动作向量输入速度平滑确定性策略梯度网络,输出当前动作向量,具体方法为:将当前状态向量si和前一步动作向量ai-1作为确定性策略梯度法目标网络Actor部分的输入,输出当前动作向量ai并记录;
步骤3,以当前动作向量控制机械臂运动,具体方法为:将当前动作向量ai输入机械臂控制器,运动完成后,按实际机械臂关节角度构建状态向量si+1
步骤4,当前时刻i←i+1,若机械臂未完成作业任务,则返回步骤2,否则结束测试。

Claims (3)

1.基于速度平滑确定性策略梯度的机械臂路径规划方法,其特征在于,包括训练阶段和测试阶段;
(一)训练阶段步骤如下:
步骤1、构建带有作业任务反馈的机械臂仿真环境;
步骤2,在确定性策略梯度网络输入中引入前一步机械臂动作向量,构建基于速度平滑确定性策略梯度的强化学习网络框架;
步骤3,初始化网络训练参数,包括感知机参数集合、训练样本库的最大样本数量、单次训练样本数量、最大仿真次、单次仿真最大步数和当前仿真次数;
步骤4,初始化机械臂仿真环境,包括目标位姿向量、机械臂初始状态向量、前一步动作向量和当前步数;
步骤5,基于速度平滑确定性策略梯度网络和仿真环境获取样本,构建训练样本库,若训练样本数量达到最大样本数量,则执行步骤6,否则执行步骤7;
步骤6,按单次训练样本数量从训练样本库中抽取训练样本,训练速度平滑确定性策略梯度网络;
步骤7,判断是否完成作业任务或者当前步数是否达到单次仿真最大步数,若完成作业任务或者当前步数达到单次仿真最大步数,则执行步骤8,否则返回步骤5进行下一步仿真;
步骤8,判断当前仿真次数是否达到最大仿真次数,若达到,则结束训练过程,否则返回步骤4,进行下一次仿真;
(二)测试阶段步骤如下:
步骤1,根据实际目标位姿信息、机械臂关节角度初始化机械臂仿真环境,包括目标位姿向量、机械臂初始状态向量、前一步动作向量和当前步数;
步骤2,将当前状态向量和前一步动作向量输入速度平滑确定性策略梯度网络,得到当前动作向量;
步骤3,以当前动作向量控制机械臂运动,以此构建机械臂状态向量;
步骤4,判断机械臂是否完成作业任务,若完成则结束测试,否则返回步骤2进行下一步测试;
训练阶段的步骤2中,构建基于速度平滑确定性策略梯度的强化学习网络框架具体为:
确定性策略梯度网络由两个Actor-Critic结构网络组成,分别为训练网络和目标网络,在训练网络和目标网络的输入中引入前一步机械臂动作向量a-,即训练网络和目标网络的Actor部分的输入各有两个部分,分别为当前状态向量s与前一步动作向量a-,输出为当前动作向量a;Critic部分的输入各有两个部分,分别为当前状态向量s和当前动作向量a,输出为未来奖励的期望;
训练网络和目标网络都由多层感知机组成,设训练网络Critic部分、训练网络Actor部分、目标网络Critic部分、目标网络Actor部分的感知机参数集合分别为θQ、θμ、θQ′、θμ′,四个部分的输出分别为Q(s,a|θQ)、μ(s,a-μ)、Q′(s,a|θQ′)、μ′(s,a-μ′),则训练网络Critic部分的损失函数定义如下:
Figure FDA0003482451730000021
其中,N为单次训练的样本数量,st为第t个样本的机械臂当前状态向量,at为第t个样本的当前步动作向量,Q(s,a|θQ)为训练网络Critic部分的输出,yt为中间变量,其定义如下:
yt=rt+γQ′(s′t,μ′(s′t,atμ′)|θQ′) (2)
式中,γ为奖励的衰减系数,rt为第t个样本的即时奖励,s′t为第t个样本在(st,at)状态下仿真出的下一步机械臂的状态向量;
训练网络Actor部分的损失函数定义如下:
Figure FDA0003482451730000022
其中,κ为速度变化惩罚系数,at-为第t个样本的前一步动作向量,at不由样本直接获得,而由式(4)得到
at=μ(st,at-μ) (4)
训练阶段的步骤5中,构建训练样本库的具体方法为:
将当前状态向量si和前一步动作向量ai-1作为训练网络的输入,输出当前动作向量ai
ai=μ(si,ai-1μ) (5)
将当前动作向量ai输入机械臂仿真环境,仿真出下一步的状态向量si+1以及得到即时奖励ri
将前一步动作向量ai-1、当前状态向量si、当前动作向量ai、下一步状态向量si+1、即时奖励ri构建样本(ai-1,si,ai,si+1,ri)存入训练样本库。
2.根据权利要求1所述的基于速度平滑确定性策略梯度的机械臂路径规划方法,其特征在于,训练阶段的步骤1中,利用虚拟仿真技术构建带有作业任务反馈的机械臂仿真环境,该仿真环境设有输入接口和输出接口,输入接口用于输入机械臂初始状态向量即各关节初始角度、目标位姿、当前机械臂关节角速度,输出接口输出机械臂当前状态向量、机械臂做出动作后获得的即时奖励和一个标志位。
3.根据权利要求1所述的基于速度平滑确定性策略梯度的机械臂路径规划方法,其特征在于,训练阶段的步骤6中,训练速度平滑确定性策略梯度网络的具体方法为:
对于训练网络,采用梯度下降法,根据训练网络Critic部分的损失函数更新训练网络Critic部分的感知机参数集合,根据训练网络Actor部分的损失函数更新训练网络Actor部分的感知机参数集合;
对于目标网络,按如下公式更新目标网络Critic部分和目标网络Actor部分参数集合:
Figure FDA0003482451730000031
式中,τ为目标网络更新参数。
CN201910685553.8A 2019-07-27 2019-07-27 基于速度平滑确定性策略梯度的机械臂路径规划方法 Active CN110328668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910685553.8A CN110328668B (zh) 2019-07-27 2019-07-27 基于速度平滑确定性策略梯度的机械臂路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910685553.8A CN110328668B (zh) 2019-07-27 2019-07-27 基于速度平滑确定性策略梯度的机械臂路径规划方法

Publications (2)

Publication Number Publication Date
CN110328668A CN110328668A (zh) 2019-10-15
CN110328668B true CN110328668B (zh) 2022-03-22

Family

ID=68147831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910685553.8A Active CN110328668B (zh) 2019-07-27 2019-07-27 基于速度平滑确定性策略梯度的机械臂路径规划方法

Country Status (1)

Country Link
CN (1) CN110328668B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191399B (zh) * 2019-12-24 2021-11-05 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111267109B (zh) * 2020-03-24 2021-07-02 华中科技大学 一种基于强化学习的机器人速度规划方法和系统
CN111923039B (zh) * 2020-07-14 2022-07-05 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法
CN113043286B (zh) * 2020-12-25 2022-05-03 杭州电子科技大学 一种多自由度机械臂实时避障路径规划系统及方法
CN114179085B (zh) * 2021-12-16 2024-02-06 上海景吾智能科技有限公司 机器人控制、轨迹衔接与平滑处理的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
JP2019159888A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 機械学習システム
CN110535146A (zh) * 2019-08-27 2019-12-03 哈尔滨工业大学 基于深度确定策略梯度强化学习的电力系统无功优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
JP2019159888A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 機械学習システム
CN109212476A (zh) * 2018-09-18 2019-01-15 广西大学 一种基于ddpg的rfid室内定位算法
CN110535146A (zh) * 2019-08-27 2019-12-03 哈尔滨工业大学 基于深度确定策略梯度强化学习的电力系统无功优化方法

Also Published As

Publication number Publication date
CN110328668A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110328668B (zh) 基于速度平滑确定性策略梯度的机械臂路径规划方法
CN109948642B (zh) 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
Zhu et al. Reinforcement and imitation learning for diverse visuomotor skills
Popov et al. Data-efficient deep reinforcement learning for dexterous manipulation
Zhang et al. Deep interactive reinforcement learning for path following of autonomous underwater vehicle
Chen et al. Deep reinforcement learning to acquire navigation skills for wheel-legged robots in complex environments
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
Lin et al. Evolutionary digital twin: A new approach for intelligent industrial product development
Köker et al. A study of neural network based inverse kinematics solution for a three-joint robot
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN112809689B (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN110516389B (zh) 行为控制策略的学习方法、装置、设备及存储介质
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN111421538B (zh) 一种基于优先级经验回放的深度强化学习机器人控制方法
Hafez et al. Deep intrinsically motivated continuous actor-critic for efficient robotic visuomotor skill learning
CN110069037A (zh) 基于智能装备制造的联合虚拟仿真调试系统及其方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
JP2000347708A (ja) ニューラルネットよる動的システムの制御方法及び装置及びニューラルネットよる動的システムの制御プログラムを格納した記憶媒体
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Zhou et al. An efficient deep reinforcement learning framework for uavs
CN117103282A (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
CN114077258B (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant