CN113829351A

CN113829351A - 一种基于强化学习的移动机械臂的协同控制方法

Info

Publication number: CN113829351A
Application number: CN202111192766.0A
Authority: CN
Inventors: 蒙艳玫; 张婷婷; 武豪; 许恩永; 韦锦; 张长水; 董振; 唐治宏; 李正强
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2021-12-24
Anticipated expiration: 2041-10-13
Also published as: CN113829351B

Abstract

本发明公开了一种基于强化学习的移动机械臂的协同控制方法，基于一种深度强化学习的车‑臂协同控制框架，对车臂协同过程进行马尔科夫决策过程建模，并设计奖赏函数；进一步，基于深度确定性策略梯度算法，通过短时间的模型训练之后，可以稳定的实现机械臂末端在跟随其轨迹运动的同时，移动平台在其无碰撞的路径上独立运动，并且移动平台在其路径上的速度完全由机械臂每个时刻的状态决定，同时机械臂能够时刻保持较高的可操作度以及末端跟踪精度。

Description

一种基于强化学习的移动机械臂的协同控制方法

技术领域

本发明涉及控制技术领域，特别涉及一种基于强化学习的移动机械臂的协同控制方法。

背景技术

随着城市高速公路绿化的飞快发展，公路两旁的绿篱修剪任务量逐步增大，传统的绿篱修剪机械臂主要基于固定底座运动，但很多情况下机械臂需要在工作范围以外进行作业，比如园区绿篱修剪、搬运货物、大型设备的喷漆作业等，这种场景下需要机械臂末端在更大的空间范围内按照一定轨迹运动，并且底盘运动被限制在某些特定区域，在这种情况下人工控制移动机械臂会变得非常困难，且自动化程度较低。在这种情况下，开发了移动机械臂，然而传统的移动机械臂依然主要由人工操作进行作业，由于控制方法复杂，导致人工操作时对操作人员技能要求过高，且运动轨迹无法保证。而在某些场景下，例如园林绿篱修剪，以及大型设备的焊接、喷涂等场景。在这些场景下，移动机械臂的底盘和机械臂末端运动轨迹都有着特定的要求，机械臂末端需要精准的执行作业轨迹，同时移动平台需要在能够保证安全性的特定路径下运动，并且能够支持机械臂在更大范围作业。这样的要求下人工操作显然是不现实的，所以移动机械臂的自动化协同控制就变得非常重要。

移动机械臂的运动规划问题相比于移动平台和机械臂单独规划问题更为复杂，国内外目前在该领域的研究相对较少，还没有形成系统的方法，但目前的解决方案大体可分为两类：整体式规划和分级式规划。整体式规划的方法主要思想是将移动底盘与机械臂看成一个完整的系统来进行处理，这种方法一般以机械臂末端执行器的轨迹为基准，而移动平台的轨迹则需要在末端执行器轨迹的基础上，根据一定的优化准则对系统雅各比矩阵求逆运动学得到。在分离式规划中，移动机械手系统由两个子系统组成:机械手和移动平台，这两个子系统可以有两个独立的轨迹:末端执行器轨迹和移动平台安全路径。这种规划方案思路主要在于先依据任务需要规划出末端执行器带有时间特征的轨迹，然后基于环境中障碍物信息，规划出移动平台无碰撞路径，通过一定的求解方法找出末端执行器在每个时间点下对应的底盘位置。

现有研究在解决移动平台与机械臂协同控制方面取得了一定的进展，然而以下三个方面的问题依然需要解决：

1)大多数算法依赖于进化算法求最优解，求解速度相对较慢，无法满足控制的实时性。

2)在很多情况下，移动平台需要沿着特定路径运行，整体式规划无法满足移动平台跟随特定路径运动。

3)非完整约束的移动平台的路径跟踪需要满足其自身的动力学约束，通过优化求解得到的移动平台路径通常不满足非完整约束移动平台的运动学。因此，移动机械臂的车-臂路径解耦仍是一个未决问题。

发明内容

本发明的目的在于提供一种基于强化学习的移动机械臂的协同控制方法，可以使移动平台在其无碰撞的路径上独立运动，且机械臂能够时刻保持较高的可操作度以及末端跟踪精度。

为实现上述目的，本发明所述的移动机械臂包括移动平台和固定在移动平台上的机械臂，本发明提供的一种基于强化学习的移动机械臂的协同控制方法，包括：

步骤一，车臂协同的马尔科夫决策过程建模：基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程(MDP)模型，以移动平台的速度控制模块作为智能体Agent，通过强化学习与环境进行交互训练，从动作空间中选择合适的决策值来控制移动平台的速度，同时基于奖赏函数来对t时刻的决策行为进行评价，调整出最优的策略并并且获得最高的奖赏值；

步骤二，模型训练：基于深度确定性策略梯度(DDPG)算法，输出连续的动作决策值，控制移动平台的移动速度；通过训练后，协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度，得到移动平台的速度决策值，使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度；

步骤三，车臂协同控制：基于移动平台的实时位姿和机械臂末端的下一个目标位置点，对机械臂进行逆运动学求解，获得各个关节的角度，控制电机使各个关节移动至目标位置；再进一步基于深度确定性策略梯度强化学习算法，得到移动平台的速度和转向决策值，控制移动平台的速度，并基于纯跟踪算法控制移动平台的转向，从而实现移动平台在低速工况下能够跟踪预定路径移动，使移动平台在每一时刻所处的位置，都能够满足机械臂末端目标轨迹点的要求。

优选地，步骤一的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ)；其中状态集S为机械臂末端的状态和移动平台的前轮角度集合；动作集A为移动平台可实现的加速度集合；P为状态转移概率，P：S×A×S→(0,1)；R为奖赏函数；γ为用来计算累计奖赏的折扣因子，γ∈(0,1)。

优选地，步骤一所述的奖赏函数为：R＝ω₁*R₁+ω₂*R₂；在式中，ω₁为机械臂可操作度的权重,ω₂为机平顺性性能的权重；R₁表示机械臂的可操作性度量，

式中的J为移动机械臂的整体雅可比矩阵；R₂表示移动平台行驶稳定性度量，

式中a为加速度。

优选地，步骤一中强化学习与环境进行交互训练的方法为：从动作集A中选择不同的加速度来对移动平台进行控制，使状态从S_t过渡到S_t+1，根据奖赏函数来对t时刻的决策行为进行评价，通过不断强化学习与环境进行交互训练，调整出最优的策略并获得最高奖赏值；其中，最高奖赏值的计算公式为：

π为概率分布函数，γ为衰减(折扣)因子，取值为0到1；r₁,r₂,…为系统每次与环境交互所获得的奖赏值；

优选地，步骤二中的深度确定性策略梯度算法由两部分组成：一部分是策略网络，负责拟合策略函数，基于当前的状态St，输出动作的决策值At；另一部分是评价网络，负责对动作决策的优劣程度进行评价；在训练的过程中，对策略网络和评价网络的参数分别更新。

优选地，步骤二的深度确定性策略梯度算法为：

(4)将奖赏之和的目标函数设为J(θ^μ)，J(θ^μ)＝E_θ'[r₁+γr₂+γ²r₃+…]；其中γ为衰减(折扣)因子，取值为0到1；r₁,r₂,…为系统每次与环境交互所获得的奖赏值；

(5)根据随机梯度下降的方法，对目标函数进行优化，使目标函数关于θ^μ的梯度与Q值函数关于θ^μ的期望梯度是等价的，表示为：

(6)由确定性策略a＝π(s|θ^μ)可得：

在此基础上，策略网络的更新过程表示为：

其中，μ是行为策略函数；α为学习效率；θ^Q表示Q网络中的参数，s指当前时刻的状态，Q(s,a|θ^Q)表示使用策略μ在s状态选取动作所获得的奖赏期望值；π(s|θ)是一个概率分布函数；

是t时刻产生确定性动作的策略网络的参数。

(4)进一步地，通过DQN中值网络的方法来更新评价网络：

其中，

和

分别表示目标策略网络和目标值网络的参数；

(5)深度确定性策略梯度算法基于经验回放基质从样本池中获取训练样本，并将动作的梯度信息从评价网络传递给策略网络，根据步骤(3)的公式

朝着提升Q值的方向更新策略网络的参数，更新方法为：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

其中，τ为更新率，且值远小于1。

优选地，为了避免在连续动作空间中探索最优动作时陷入局部最优，步骤二的深度确定性策略梯度算法中还增加了Noise方法：

其中，N表示噪声，

表示行为策略函数，s_t表示t时刻状态，

是t时刻产生确定性动作的策略网络的参数。

优选地，在步骤三中，基于纯跟踪算法控制移动平台的转向的方法为：

将t时刻移动平台的前轮转角设为δ(t)，δ(t)的表达式为：

在式中，δ为移动平台的前轮转角；L为轴距；α表示当前车身姿态与目标路点的夹角；kv_x表示当前位置到目标路点的距离，即预瞄距离，通过调整系数k可调整纯跟踪算法的控制量；

通过解算未来路径上某一预瞄点与移动平台当前位姿的运动学关系，可得到移动平台转角控制量，实现移动平台的转向控制。

与现有技术相比，本发明具有如下有益效果：

本发明提出一种基于强化学习的移动机械臂的协同控制方法，基于一种深度强化学习的车-臂协同控制框架，对车臂协同过程进行马尔科夫决策过程(MDP)建模，并设计奖赏函数；进一步，基于深度确定性策略梯度(DDPG)算法，通过短时间的模型训练之后，可以稳定的实现机械臂末端在跟随其轨迹运动的同时，移动平台在其无碰撞的路径上独立运动，并且移动平台在其路径上的速度完全由机械臂每个时刻的状态决定，同时机械臂能够时刻保持较高的可操作度以及末端跟踪精度。该方法能够解除传统协同控制算法对路径形状以及移动平台的完整约束等限制，具有更高的通用性。可以实现机器人的全自动作业，提升了园艺机器人的自动化、智能化水平。

附图说明

图1为马尔科夫决策过程(MDP)模型的示意图。

图2为深度确定性策略梯度(DDPG)算法的示意图。

图3为车臂协同控制方法的示意图。

图4为纯跟踪算法的示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

实施例1基于强化学习的移动机械臂的协同控制方法

其中，移动机械臂包括移动平台和固定在移动平台上的机械臂；所述移动平台为阿卡曼转向移动平台，所述机械臂为六自由度机械臂。

步骤一，车臂协同的马尔科夫决策过程建模：

(1)首先，将车臂协同运动的控制转化为马尔科夫决策(MDP)问题，参见图1，MDP是序贯决策的经典化表达，是强化学习相关问题在数学上的理想化形式；基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程(MDP)模型，本实施例的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ)，其中状态集S为机械臂末端的状态和移动平台的前轮角度集合；动作集A为移动平台可实现的加速度集合；P为状态转移概率，P：S×A×S→(0,1)；R为奖赏函数；γ为用来计算累计奖赏的折扣因子，γ∈(0,1)；

在本步骤的马尔科夫决策过程模型中，以移动平台的速度控制模块作为智能体Agent，机械臂所有关节的状态视为当前状态St，如表1所示，状态集S包含了机械臂末端相对于机械臂底座的位置dx、dy、dz，机械臂末端的相对速度vx、vy、vz，机械臂末端的相对加速度ax、ay、az；由机器人系统分析可知，机械臂末端刀具在X、Y、Z三个方向的位置最大值和最小值分别为机械臂工作空间的最大值和最小值，所以在结构上决定了其无法超过该限值；在X、Y、Z三个方向的速度和加速度的限值由其电机的具体参数决定，通过一阶和二阶正向运动学分析可以得到末端位置的速度和加速度限值；

表1状态集S

在本步骤的马尔科夫决策过程模型中，动作集A如表2所示，在表2中，a_min为移动平台的最大减速度，a_max为移动平台的最大加速度，移动平台的速度限制可以由动力电池的功率以及电机功率决定；

表2动作集A

名称	范围
		期望加速度(m/s)	[a<sub>min</sub>～a<sub>max</sub>]

(2)设计奖赏函数

奖赏函数对于强化学习模型优化而言至关重要，它决定了强化学习中的神经网络参数更新的方向，等同于监督学习中的监督信息，所以奖赏函数的定义直接决定了决策行为的目的。本实施例采用模块化的奖赏函数，使用多优化目标对网络进行更新，其中包括对机械臂可操作度和移动平台加速度平顺度两个方面的模块。设计步骤如下：

①机械臂可操作性度量

当机械臂发生运动学奇异时，机械臂末端会在某一方向上或者多个方向失去运动能力，从而导致轨迹跟踪失败，本实施例的关键在于通过调整移动平台速度来保证机械臂末端在其工作空间范围内进行工作，并尽可能的保证较高的可操作度。为了最大化系统的可操作性度量，选择优化目标函数作为机械臂的可操作性度量，其定义为：

式中，J为移动机械臂的整体雅可比矩阵。

②移动平台行驶稳定性度量

移动平台行驶过程中，如果加速度值过大会导致车辆行驶不稳定，从而造成机械臂末端轨迹跟踪效果较差，影响任务执行效果，所以智能体在做出决策过程中，还需要对输出加速度的变化率加以控制，加速度变化率越小，说明车辆行驶越平顺。其定义为：

式中a为加速度；

③构造奖赏函数

基于以上所述的两部分来构造奖赏函数，奖赏函数定义为：R＝ω₁*R₁+ω₂*R₂；在式中，ω₁为机械臂可操作度的权重,ω₂为机平顺性性能的权重。

(3)通过强化学习与环境进行交互训练，从动作集A中选择不同的加速度来对移动平台进行控制，使状态从S_t过渡到S_t+1，根据奖赏函数来对t时刻的决策行为进行评价，通过不断强化学习与环境进行交互训练，调整出最优的策略并获得最高奖赏值；其中，最高奖赏值的计算公式为：

步骤二，模型训练：

基于深度确定性策略梯度(DDPG)算法，输出连续的动作决策值，控制移动平台的移动速度；通过训练后，协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度，得到移动平台的速度决策值，使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度；

参见图2，深度确定性策略梯度算法由两部分组成：一部分是策略网络，负责拟合策略函数，基于当前的状态St，输出动作的决策值At；另一部分是评价网络，负责对动作决策的优劣程度进行评价；在训练的过程中，对策略网络和评价网络的参数分别更新；

其中，深度确定性策略梯度算法为：

(1)将奖赏之和的目标函数设为J(θ^μ)，J(θ^μ)＝E_θ'[r₁+γr₂+γ²r₃+…]；其中γ为衰减(折扣)因子，取值为0到1；r₁,r₂,…为系统每次与环境交互所获得的奖赏值；

(2)根据随机梯度下降的方法，对目标函数进行优化，使目标函数关于θ^μ的梯度与Q值函数关于θ^μ的期望梯度是等价的，表示为：

(3)由确定性策略a＝π(s|θ^μ)可得：

在此基础上，策略网络的更新过程表示为：

是t时刻产生确定性动作的策略网络的参数。

(4)进一步地，通过DQN中值网络的方法来更新评价网络：

其中，

和

分别表示目标策略网络和目标值网络的参数；

朝着提升Q值的方向更新策略网络的参数，更新方法为：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

其中，τ为更新率，且值远小于1。

为了避免在连续动作空间中探索最优动作时陷入局部最优，深度确定性策略梯度算法中还增加了Noise方法：

其中，N表示噪声，

表示行为策略函数，s_t表示t时刻状态，

是t时刻产生确定性动作的策略网络的参数。。

步骤三，参见图3，车臂协同控制：

(1)进行机械臂末端轨迹跟踪，基于移动平台的实时位姿和机械臂末端的下一个目标位置点，对机械臂进行逆运动学求解，获得各个关节的角度，控制电机使各个关节移动至目标位置；

(2)由于移动平台路径与机械臂轨迹的相对随机性，难以建立准确的模型进行求解，故基于步骤二提出的深度确定性策略梯度强化学习算法，通过模型训练之后，能够根据机械臂的位姿状态，输出移动平台的速度和转向决策值，用以控制移动平台的移动，并基于纯跟踪算法控制移动平台的转向，从而实现移动平台在低速工况下能够跟踪预定路径移动，使移动平台在每一时刻所处的位置，都能够满足机械臂末端目标轨迹点的要求；

其中，参见图4，基于纯跟踪算法控制移动平台的转向的方法为：

将t时刻移动平台的前轮转角设为δ(t)，δ(t)的表达式为：

通过上述方法可实现移动机械臂的协同运动，使机械臂末端和底盘跟踪各自规划路径的同时实现协同运动，保证机械臂的末端执行器具有较高的可操作度和跟踪精度。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于强化学习的移动机械臂的协同控制方法，所述的移动机械臂包括移动平台和固定在移动平台上的机械臂，其特征在于，所述协同控制方法包括以下步骤：

步骤一，车臂协同的马尔科夫决策过程建模：基于马尔科夫决策过程构建车臂协同过程的马尔科夫决策过程模型，以移动平台的速度控制模块作为智能体Agent，通过强化学习与环境进行交互训练，从动作空间中选择合适的决策值来控制移动平台的速度，同时基于奖赏函数来对t时刻的决策行为进行评价，调整出最优的策略并并且获得最高的奖赏值；

步骤二，模型训练：基于深度确定性策略梯度算法，输出连续的动作决策值，控制移动平台的移动速度；通过训练后，协同移动平台的速度控制模块根据每一时刻机械臂各关节位置和速度，得到移动平台的速度决策值，使得移动平台所处的位置能够保证机械臂处于尽可能大的可操作度；

2.按照权利要求1所述的协同控制方法，其特征在于：步骤一的马尔科夫决策过程模型形式表示为一个五元组(S,A,P,R,γ)；其中状态集S为机械臂末端的状态和移动平台的前轮角度集合；动作集A为移动平台可实现的加速度集合；P为状态转移概率，P：S×A×S→(0,1)；R为奖赏函数；γ为用来计算累计奖赏的折扣因子，γ∈(0,1)。

3.按照权利要求1所述的协同控制方法，其特征在于：步骤一所述的奖赏函数为：R＝ω₁*R₁+ω₂*R₂；在式中，ω₁为机械臂可操作度的权重,ω₂为机平顺性性能的权重；R₁表示机械臂的可操作性度量，

式中a为加速度。

4.按照权利要求2所述的协同控制方法，其特征在于：步骤一中强化学习与环境进行交互训练的方法为：从动作集A中选择不同的加速度来对移动平台进行控制，使状态从S_t过渡到S_t+1，根据奖赏函数来对t时刻的决策行为进行评价，通过不断强化学习与环境进行交互训练，调整出最优的策略并获得最高奖赏值；其中，最高奖赏值的计算公式为：