CN113829351A - 一种基于强化学习的移动机械臂的协同控制方法 - Google Patents

一种基于强化学习的移动机械臂的协同控制方法 Download PDF

Info

Publication number
CN113829351A
CN113829351A CN202111192766.0A CN202111192766A CN113829351A CN 113829351 A CN113829351 A CN 113829351A CN 202111192766 A CN202111192766 A CN 202111192766A CN 113829351 A CN113829351 A CN 113829351A
Authority
CN
China
Prior art keywords
mobile platform
mechanical arm
network
value
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111192766.0A
Other languages
English (en)
Other versions
CN113829351B (zh
Inventor
蒙艳玫
张婷婷
武豪
许恩永
韦锦
张长水
董振
唐治宏
李正强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202111192766.0A priority Critical patent/CN113829351B/zh
Publication of CN113829351A publication Critical patent/CN113829351A/zh
Application granted granted Critical
Publication of CN113829351B publication Critical patent/CN113829351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J18/00Arms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的移动机械臂的协同控制方法,基于一种深度强化学习的车‑臂协同控制框架,对车臂协同过程进行马尔科夫决策过程建模,并设计奖赏函数;进一步,基于深度确定性策略梯度算法,通过短时间的模型训练之后,可以稳定的实现机械臂末端在跟随其轨迹运动的同时,移动平台在其无碰撞的路径上独立运动,并且移动平台在其路径上的速度完全由机械臂每个时刻的状态决定,同时机械臂能够时刻保持较高的可操作度以及末端跟踪精度。

Description

一种基于强化学习的移动机械臂的协同控制方法
技术领域
本发明涉及控制技术领域,特别涉及一种基于强化学习的移动机械臂的协同控制方法。
背景技术
随着城市高速公路绿化的飞快发展,公路两旁的绿篱修剪任务量逐步增大,传统的绿篱修剪机械臂主要基于固定底座运动,但很多情况下机械臂需要在工作范围以外进行作业,比如园区绿篱修剪、搬运货物、大型设备的喷漆作业等,这种场景下需要机械臂末端在更大的空间范围内按照一定轨迹运动,并且底盘运动被限制在某些特定区域,在这种情况下人工控制移动机械臂会变得非常困难,且自动化程度较低。在这种情况下,开发了移动机械臂,然而传统的移动机械臂依然主要由人工操作进行作业,由于控制方法复杂,导致人工操作时对操作人员技能要求过高,且运动轨迹无法保证。而在某些场景下,例如园林绿篱修剪,以及大型设备的焊接、喷涂等场景。在这些场景下,移动机械臂的底盘和机械臂末端运动轨迹都有着特定的要求,机械臂末端需要精准的执行作业轨迹,同时移动平台需要在能够保证安全性的特定路径下运动,并且能够支持机械臂在更大范围作业。这样的要求下人工操作显然是不现实的,所以移动机械臂的自动化协同控制就变得非常重要。
移动机械臂的运动规划问题相比于移动平台和机械臂单独规划问题更为复杂,国内外目前在该领域的研究相对较少,还没有形成系统的方法,但目前的解决方案大体可分为两类:整体式规划和分级式规划。整体式规划的方法主要思想是将移动底盘与机械臂看成一个完整的系统来进行处理,这种方法一般以机械臂末端执行器的轨迹为基准,而移动平台的轨迹则需要在末端执行器轨迹的基础上,根据一定的优化准则对系统雅各比矩阵求逆运动学得到。在分离式规划中,移动机械手系统由两个子系统组成:机械手和移动平台,这两个子系统可以有两个独立的轨迹:末端执行器轨迹和移动平台安全路径。这种规划方案思路主要在于先依据任务需要规划出末端执行器带有时间特征的轨迹,然后基于环境中障碍物信息,规划出移动平台无碰撞路径,通过一定的求解方法找出末端执行器在每个时间点下对应的底盘位置。
现有研究在解决移动平台与机械臂协同控制方面取得了一定的进展,然而以下三个方面的问题依然需要解决:
1)大多数算法依赖于进化算法求最优解,求解速度相对较慢,无法满足控制的实时性。
2)在很多情况下,移动平台需要沿着特定路径运行,整体式规划无法满足移动平台跟随特定路径运动。
3)非完整约束的移动平台的路径跟踪需要满足其自身的动力学约束,通过优化求解得到的移动平台路径通常不满足非完整约束移动平台的运动学。因此,移动机械臂的车-臂路径解耦仍是一个未决问题。
发明内容
本发明的目的在于提供一种基于强化学习的移动机械臂的协同控制方法,可以使移动平台在其无碰撞的路径上独立运动,且机械臂能够时刻保持较高的可操作度以及末端跟踪精度。
为实现上述目的,本发明所述的移动机械臂包括移动平台和固定在移动平台上的机械臂,本发明提供的一种基于强化学习的移动机械臂的协同控制方法,包括:
步骤一,车臂协同的马尔科夫决策过程建模:基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程(MDP)模型,以移动平台的速度控制模块作为智能体Agent,通过强化学习与环境进行交互训练,从动作空间中选择合适的决策值来控制移动平台的速度,同时基于奖赏函数来对t时刻的决策行为进行评价,调整出最优的策略并并且获得最高的奖赏值;
步骤二,模型训练:基于深度确定性策略梯度(DDPG)算法,输出连续的动作决策值,控制移动平台的移动速度;通过训练后,协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度,得到移动平台的速度决策值,使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度;
步骤三,车臂协同控制:基于移动平台的实时位姿和机械臂末端的下一个目标位置点,对机械臂进行逆运动学求解,获得各个关节的角度,控制电机使各个关节移动至目标位置;再进一步基于深度确定性策略梯度强化学习算法,得到移动平台的速度和转向决策值,控制移动平台的速度,并基于纯跟踪算法控制移动平台的转向,从而实现移动平台在低速工况下能够跟踪预定路径移动,使移动平台在每一时刻所处的位置,都能够满足机械臂末端目标轨迹点的要求。
优选地,步骤一的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ);其中状态集S为机械臂末端的状态和移动平台的前轮角度集合;动作集A为移动平台可实现的加速度集合;P为状态转移概率,P:S×A×S→(0,1);R为奖赏函数;γ为用来计算累计奖赏的折扣因子,γ∈(0,1)。
优选地,步骤一所述的奖赏函数为:R=ω1*R12*R2;在式中,ω1为机械臂可操作度的权重,ω2为机平顺性性能的权重;R1表示机械臂的可操作性度量,
Figure BDA0003301867370000031
式中的J为移动机械臂的整体雅可比矩阵;R2表示移动平台行驶稳定性度量,
Figure BDA0003301867370000032
式中a为加速度。
优选地,步骤一中强化学习与环境进行交互训练的方法为:从动作集A中选择不同的加速度来对移动平台进行控制,使状态从St过渡到St+1,根据奖赏函数来对t时刻的决策行为进行评价,通过不断强化学习与环境进行交互训练,调整出最优的策略并获得最高奖赏值;其中,最高奖赏值的计算公式为:
Figure BDA0003301867370000033
π为概率分布函数,γ为衰减(折扣)因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值;
优选地,步骤二中的深度确定性策略梯度算法由两部分组成:一部分是策略网络,负责拟合策略函数,基于当前的状态St,输出动作的决策值At;另一部分是评价网络,负责对动作决策的优劣程度进行评价;在训练的过程中,对策略网络和评价网络的参数分别更新。
优选地,步骤二的深度确定性策略梯度算法为:
(4)将奖赏之和的目标函数设为J(θμ),J(θμ)=Eθ'[r1+γr22r3+…];其中γ为衰减(折扣)因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值;
(5)根据随机梯度下降的方法,对目标函数进行优化,使目标函数关于θμ的梯度与Q值函数关于θμ的期望梯度是等价的,表示为:
Figure BDA0003301867370000041
(6)由确定性策略a=π(s|θμ)可得:
Figure BDA0003301867370000042
在此基础上,策略网络的更新过程表示为:
Figure BDA0003301867370000043
Figure BDA0003301867370000044
其中,μ是行为策略函数;α为学习效率;θQ表示Q网络中的参数,s指当前时刻的状态,Q(s,a|θQ)表示使用策略μ在s状态选取动作所获得的奖赏期望值;π(s|θ)是一个概率分布函数;
Figure BDA0003301867370000045
是t时刻产生确定性动作的策略网络的参数。
(4)进一步地,通过DQN中值网络的方法来更新评价网络:
Figure BDA0003301867370000051
其中,
Figure BDA0003301867370000052
Figure BDA0003301867370000053
Figure BDA0003301867370000054
分别表示目标策略网络和目标值网络的参数;
(5)深度确定性策略梯度算法基于经验回放基质从样本池中获取训练样本,并将动作的梯度信息从评价网络传递给策略网络,根据步骤(3)的公式
Figure BDA0003301867370000055
朝着提升Q值的方向更新策略网络的参数,更新方法为:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
其中,τ为更新率,且值远小于1。
优选地,为了避免在连续动作空间中探索最优动作时陷入局部最优,步骤二的深度确定性策略梯度算法中还增加了Noise方法:
Figure BDA0003301867370000056
其中,N表示噪声,
Figure BDA0003301867370000057
表示行为策略函数,st表示t时刻状态,
Figure BDA0003301867370000058
是t时刻产生确定性动作的策略网络的参数。
优选地,在步骤三中,基于纯跟踪算法控制移动平台的转向的方法为:
将t时刻移动平台的前轮转角设为δ(t),δ(t)的表达式为:
Figure BDA0003301867370000059
在式中,δ为移动平台的前轮转角;L为轴距;α表示当前车身姿态与目标路点的夹角;kvx表示当前位置到目标路点的距离,即预瞄距离,通过调整系数k可调整纯跟踪算法的控制量;
通过解算未来路径上某一预瞄点与移动平台当前位姿的运动学关系,可得到移动平台转角控制量,实现移动平台的转向控制。
与现有技术相比,本发明具有如下有益效果:
本发明提出一种基于强化学习的移动机械臂的协同控制方法,基于一种深度强化学习的车-臂协同控制框架,对车臂协同过程进行马尔科夫决策过程(MDP)建模,并设计奖赏函数;进一步,基于深度确定性策略梯度(DDPG)算法,通过短时间的模型训练之后,可以稳定的实现机械臂末端在跟随其轨迹运动的同时,移动平台在其无碰撞的路径上独立运动,并且移动平台在其路径上的速度完全由机械臂每个时刻的状态决定,同时机械臂能够时刻保持较高的可操作度以及末端跟踪精度。该方法能够解除传统协同控制算法对路径形状以及移动平台的完整约束等限制,具有更高的通用性。可以实现机器人的全自动作业,提升了园艺机器人的自动化、智能化水平。
附图说明
图1为马尔科夫决策过程(MDP)模型的示意图。
图2为深度确定性策略梯度(DDPG)算法的示意图。
图3为车臂协同控制方法的示意图。
图4为纯跟踪算法的示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
实施例1基于强化学习的移动机械臂的协同控制方法
其中,移动机械臂包括移动平台和固定在移动平台上的机械臂;所述移动平台为阿卡曼转向移动平台,所述机械臂为六自由度机械臂。
步骤一,车臂协同的马尔科夫决策过程建模:
(1)首先,将车臂协同运动的控制转化为马尔科夫决策(MDP)问题,参见图1,MDP是序贯决策的经典化表达,是强化学习相关问题在数学上的理想化形式;基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程(MDP)模型,本实施例的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ),其中状态集S为机械臂末端的状态和移动平台的前轮角度集合;动作集A为移动平台可实现的加速度集合;P为状态转移概率,P:S×A×S→(0,1);R为奖赏函数;γ为用来计算累计奖赏的折扣因子,γ∈(0,1);
在本步骤的马尔科夫决策过程模型中,以移动平台的速度控制模块作为智能体Agent,机械臂所有关节的状态视为当前状态St,如表1所示,状态集S包含了机械臂末端相对于机械臂底座的位置dx、dy、dz,机械臂末端的相对速度vx、vy、vz,机械臂末端的相对加速度ax、ay、az;由机器人系统分析可知,机械臂末端刀具在X、Y、Z三个方向的位置最大值和最小值分别为机械臂工作空间的最大值和最小值,所以在结构上决定了其无法超过该限值;在X、Y、Z三个方向的速度和加速度的限值由其电机的具体参数决定,通过一阶和二阶正向运动学分析可以得到末端位置的速度和加速度限值;
表1状态集S
Figure BDA0003301867370000071
在本步骤的马尔科夫决策过程模型中,动作集A如表2所示,在表2中,amin为移动平台的最大减速度,amax为移动平台的最大加速度,移动平台的速度限制可以由动力电池的功率以及电机功率决定;
表2动作集A
名称 范围
期望加速度(m/s) [a<sub>min</sub>~a<sub>max</sub>]
(2)设计奖赏函数
奖赏函数对于强化学习模型优化而言至关重要,它决定了强化学习中的神经网络参数更新的方向,等同于监督学习中的监督信息,所以奖赏函数的定义直接决定了决策行为的目的。本实施例采用模块化的奖赏函数,使用多优化目标对网络进行更新,其中包括对机械臂可操作度和移动平台加速度平顺度两个方面的模块。设计步骤如下:
①机械臂可操作性度量
当机械臂发生运动学奇异时,机械臂末端会在某一方向上或者多个方向失去运动能力,从而导致轨迹跟踪失败,本实施例的关键在于通过调整移动平台速度来保证机械臂末端在其工作空间范围内进行工作,并尽可能的保证较高的可操作度。为了最大化系统的可操作性度量,选择优化目标函数作为机械臂的可操作性度量,其定义为:
Figure BDA0003301867370000081
式中,J为移动机械臂的整体雅可比矩阵。
②移动平台行驶稳定性度量
移动平台行驶过程中,如果加速度值过大会导致车辆行驶不稳定,从而造成机械臂末端轨迹跟踪效果较差,影响任务执行效果,所以智能体在做出决策过程中,还需要对输出加速度的变化率加以控制,加速度变化率越小,说明车辆行驶越平顺。其定义为:
Figure BDA0003301867370000082
式中a为加速度;
③构造奖赏函数
基于以上所述的两部分来构造奖赏函数,奖赏函数定义为:R=ω1*R12*R2;在式中,ω1为机械臂可操作度的权重,ω2为机平顺性性能的权重。
(3)通过强化学习与环境进行交互训练,从动作集A中选择不同的加速度来对移动平台进行控制,使状态从St过渡到St+1,根据奖赏函数来对t时刻的决策行为进行评价,通过不断强化学习与环境进行交互训练,调整出最优的策略并获得最高奖赏值;其中,最高奖赏值的计算公式为:
Figure BDA0003301867370000091
步骤二,模型训练:
基于深度确定性策略梯度(DDPG)算法,输出连续的动作决策值,控制移动平台的移动速度;通过训练后,协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度,得到移动平台的速度决策值,使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度;
参见图2,深度确定性策略梯度算法由两部分组成:一部分是策略网络,负责拟合策略函数,基于当前的状态St,输出动作的决策值At;另一部分是评价网络,负责对动作决策的优劣程度进行评价;在训练的过程中,对策略网络和评价网络的参数分别更新;
其中,深度确定性策略梯度算法为:
(1)将奖赏之和的目标函数设为J(θμ),J(θμ)=Eθ'[r1+γr22r3+…];其中γ为衰减(折扣)因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值;
(2)根据随机梯度下降的方法,对目标函数进行优化,使目标函数关于θμ的梯度与Q值函数关于θμ的期望梯度是等价的,表示为:
Figure BDA0003301867370000092
(3)由确定性策略a=π(s|θμ)可得:
Figure BDA0003301867370000101
在此基础上,策略网络的更新过程表示为:
Figure BDA0003301867370000102
Figure BDA0003301867370000103
其中,μ是行为策略函数;α为学习效率;θQ表示Q网络中的参数,s指当前时刻的状态,Q(s,a|θQ)表示使用策略μ在s状态选取动作所获得的奖赏期望值;π(s|θ)是一个概率分布函数;
Figure BDA0003301867370000104
是t时刻产生确定性动作的策略网络的参数。
(4)进一步地,通过DQN中值网络的方法来更新评价网络:
Figure BDA0003301867370000105
其中,
Figure BDA0003301867370000106
Figure BDA0003301867370000107
Figure BDA0003301867370000108
分别表示目标策略网络和目标值网络的参数;
(5)深度确定性策略梯度算法基于经验回放基质从样本池中获取训练样本,并将动作的梯度信息从评价网络传递给策略网络,根据步骤(3)的公式
Figure BDA0003301867370000109
朝着提升Q值的方向更新策略网络的参数,更新方法为:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
其中,τ为更新率,且值远小于1。
为了避免在连续动作空间中探索最优动作时陷入局部最优,深度确定性策略梯度算法中还增加了Noise方法:
Figure BDA00033018673700001010
其中,N表示噪声,
Figure BDA00033018673700001011
表示行为策略函数,st表示t时刻状态,
Figure BDA00033018673700001012
是t时刻产生确定性动作的策略网络的参数。。
步骤三,参见图3,车臂协同控制:
(1)进行机械臂末端轨迹跟踪,基于移动平台的实时位姿和机械臂末端的下一个目标位置点,对机械臂进行逆运动学求解,获得各个关节的角度,控制电机使各个关节移动至目标位置;
(2)由于移动平台路径与机械臂轨迹的相对随机性,难以建立准确的模型进行求解,故基于步骤二提出的深度确定性策略梯度强化学习算法,通过模型训练之后,能够根据机械臂的位姿状态,输出移动平台的速度和转向决策值,用以控制移动平台的移动,并基于纯跟踪算法控制移动平台的转向,从而实现移动平台在低速工况下能够跟踪预定路径移动,使移动平台在每一时刻所处的位置,都能够满足机械臂末端目标轨迹点的要求;
其中,参见图4,基于纯跟踪算法控制移动平台的转向的方法为:
将t时刻移动平台的前轮转角设为δ(t),δ(t)的表达式为:
Figure BDA0003301867370000111
在式中,δ为移动平台的前轮转角;L为轴距;α表示当前车身姿态与目标路点的夹角;kvx表示当前位置到目标路点的距离,即预瞄距离,通过调整系数k可调整纯跟踪算法的控制量;
通过解算未来路径上某一预瞄点与移动平台当前位姿的运动学关系,可得到移动平台转角控制量,实现移动平台的转向控制。
通过上述方法可实现移动机械臂的协同运动,使机械臂末端和底盘跟踪各自规划路径的同时实现协同运动,保证机械臂的末端执行器具有较高的可操作度和跟踪精度。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (8)

1.一种基于强化学习的移动机械臂的协同控制方法,所述的移动机械臂包括移动平台和固定在移动平台上的机械臂,其特征在于,所述协同控制方法包括以下步骤:
步骤一,车臂协同的马尔科夫决策过程建模:基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程模型,以移动平台的速度控制模块作为智能体Agent,通过强化学习与环境进行交互训练,从动作空间中选择合适的决策值来控制移动平台的速度,同时基于奖赏函数来对t时刻的决策行为进行评价,调整出最优的策略并并且获得最高的奖赏值;
步骤二,模型训练:基于深度确定性策略梯度算法,输出连续的动作决策值,控制移动平台的移动速度;通过训练后,协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度,得到移动平台的速度决策值,使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度;
步骤三,车臂协同控制:基于移动平台的实时位姿和机械臂末端的下一个目标位置点,对机械臂进行逆运动学求解,获得各个关节的角度,控制电机使各个关节移动至目标位置;再进一步基于深度确定性策略梯度强化学习算法,得到移动平台的速度和转向决策值,控制移动平台的速度,并基于纯跟踪算法控制移动平台的转向,从而实现移动平台在低速工况下能够跟踪预定路径移动,使移动平台在每一时刻所处的位置,都能够满足机械臂末端目标轨迹点的要求。
2.按照权利要求1所述的协同控制方法,其特征在于:步骤一的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ);其中状态集S为机械臂末端的状态和移动平台的前轮角度集合;动作集A为移动平台可实现的加速度集合;P为状态转移概率,P:S×A×S→(0,1);R为奖赏函数;γ为用来计算累计奖赏的折扣因子,γ∈(0,1)。
3.按照权利要求1所述的协同控制方法,其特征在于:步骤一所述的奖赏函数为:R=ω1*R12*R2;在式中,ω1为机械臂可操作度的权重,ω2为机平顺性性能的权重;R1表示机械臂的可操作性度量,
Figure FDA0003301867360000021
式中的J为移动机械臂的整体雅可比矩阵;R2表示移动平台行驶稳定性度量,
Figure FDA0003301867360000022
式中a为加速度。
4.按照权利要求2所述的协同控制方法,其特征在于:步骤一中强化学习与环境进行交互训练的方法为:从动作集A中选择不同的加速度来对移动平台进行控制,使状态从St过渡到St+1,根据奖赏函数来对t时刻的决策行为进行评价,通过不断强化学习与环境进行交互训练,调整出最优的策略并获得最高奖赏值;其中,最高奖赏值的计算公式为:
Figure FDA0003301867360000023
在公式中,π为概率分布函数,γ为衰减(折扣)因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值。
5.按照权利要求1所述的协同控制方法,其特征在于:步骤二中的深度确定性策略梯度算法由两部分组成:一部分是策略网络,负责拟合策略函数,基于当前的状态St,输出动作的决策值At;另一部分是评价网络,负责对动作决策的优劣程度进行评价;在训练的过程中,对策略网络和评价网络的参数分别更新。
6.按照权利要求5所述的协同控制方法,其特征在于:
步骤二的深度确定性策略梯度算法为:
(1)将奖赏之和的目标函数设为J(θμ),J(θμ)=Eθ'[r1+γr22r3+…];其中γ为衰减(折扣)因子,取值为0到1;r1,r2,…为系统每次与环境交互所获得的奖赏值;
(2)根据随机梯度下降的方法,对目标函数进行优化,使目标函数关于θμ的梯度与Q值函数关于θμ的期望梯度是等价的,表示为:
Figure FDA0003301867360000024
(3)由确定性策略a=π(s|θμ)可得:
Figure FDA0003301867360000025
在此基础上,策略网络的更新过程表示为:
Figure FDA0003301867360000031
Figure FDA0003301867360000032
其中,μ是行为策略函数;α为学习效率;θQ表示Q网络中的参数,s指当前时刻的状态,Q(s,a|θQ)表示使用策略μ在s状态选取动作所获得的奖赏期望值;π(s|θ)是一个概率分布函数;
Figure FDA0003301867360000033
是t时刻产生确定性动作的策略网络的参数;
(4)进一步地,通过DQN中值网络的方法来更新评价网络:
Figure FDA0003301867360000034
其中,
Figure FDA0003301867360000035
Figure FDA0003301867360000036
分别表示目标策略网络和目标值网络的参数;
(5)深度确定性策略梯度算法基于经验回放基质从样本池中获取训练样本,并将动作的梯度信息从评价网络传递给策略网络,根据步骤(3)的公式
Figure FDA0003301867360000037
朝着提升Q值的方向更新策略网络的参数,更新方法为:
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
其中,τ为更新率,且值远小于1。
7.按照权利要求5所述的协同控制方法,其特征在于:
步骤二的深度确定性策略梯度算法中还增加了Noise方法:
Figure FDA0003301867360000038
其中,N表示噪声,
Figure FDA0003301867360000039
表示行为策略函数,st表示t时刻状态,
Figure FDA00033018673600000310
是t时刻产生确定性动作的策略网络的参数。
8.按照权利要求1所述的协同控制方法,其特征在于,在步骤三中基于纯跟踪算法控制移动平台的转向的方法为:
将t时刻移动平台的前轮转角设为δ(t),δ(t)的表达式为:
Figure FDA0003301867360000041
在式中,δ为移动平台的前轮转角;L为轴距;α表示当前车身姿态与目标路点的夹角;kvx表示当前位置到目标路点的距离,即预瞄距离,通过调整系数k可调整纯跟踪算法的控制量;
通过解算未来路径上某一预瞄点与移动平台当前位姿的运动学关系,可得到移动平台转角控制量,实现移动平台的转向控制。
CN202111192766.0A 2021-10-13 2021-10-13 一种基于强化学习的移动机械臂的协同控制方法 Active CN113829351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111192766.0A CN113829351B (zh) 2021-10-13 2021-10-13 一种基于强化学习的移动机械臂的协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111192766.0A CN113829351B (zh) 2021-10-13 2021-10-13 一种基于强化学习的移动机械臂的协同控制方法

Publications (2)

Publication Number Publication Date
CN113829351A true CN113829351A (zh) 2021-12-24
CN113829351B CN113829351B (zh) 2023-08-01

Family

ID=78968678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111192766.0A Active CN113829351B (zh) 2021-10-13 2021-10-13 一种基于强化学习的移动机械臂的协同控制方法

Country Status (1)

Country Link
CN (1) CN113829351B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114667852A (zh) * 2022-03-14 2022-06-28 广西大学 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂系统约束运动规划方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂系统约束运动规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王;胡立坤;: "六轴机械臂广义逆系统SVM辨识与控制", 广西大学学报(自然科学版), no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114667852A (zh) * 2022-03-14 2022-06-28 广西大学 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法
CN114667852B (zh) * 2022-03-14 2023-04-14 广西大学 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法

Also Published As

Publication number Publication date
CN113829351B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN109483530B (zh) 一种基于深度强化学习的足式机器人运动控制方法及系统
CN110244735B (zh) 移动机器人跟踪预定轨迹的启发式动态规划控制方法
CN112835333B (zh) 一种基于深度强化学习多agv避障与路径规划方法及系统
CN113199474B (zh) 一种机器人行走与作业智能协同的运动规划方法
CN112000096A (zh) 一种基于麻雀搜索算法的差速agv轨迹跟踪控制方法
CN112061116B (zh) 一种基于势能场函数逼近的强化学习方法的泊车策略
CN109031947A (zh) 基于径向基神经网络的轨迹跟踪控制及方法
CN113687659B (zh) 一种基于数字孪生的最优轨迹生成方法及系统
CN114779785A (zh) 一种基于pso参数整定的移动机器人平滑轨迹规划方法
Li et al. Multiple vehicle formation control based on robust adaptive control algorithm
CN115236973A (zh) 基于pso李雅普诺夫函数的agv轨迹跟踪控制方法
CN110737195A (zh) 基于速度控制的双足机器人行走落脚点规划方法及装置
CN113829351B (zh) 一种基于强化学习的移动机械臂的协同控制方法
CN115416024A (zh) 一种力矩控制的机械臂自主轨迹规划方法和系统
Sotnik et al. Analysis of Existing Infliences in Formation of Mobile Robots Trajectory
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
MacArthur et al. Compliant formation control of a multi-vehicle system
CN115816446A (zh) 丘陵山地移动机械臂协同运动控制方法
Vasseur et al. Navigation of car-like mobile robots in obstructed environments using convex polygonal cells
CN115344047A (zh) 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法
CN114995137A (zh) 基于深度强化学习的绳驱并联机器人控制方法
Wu et al. Trajectory tracking design of multi-robot formation based on leader-follower
Gao et al. Path optimization of welding robot based on ant colony and genetic algorithm
CN114839878A (zh) 基于改进ppo算法的双足机器人行走稳定性优化方法
Hu et al. Route Planning of Intelligent Agricultural Inspection Robots Based on Improved Ant Colony Algorithm.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant