CN110328668B

CN110328668B - 基于速度平滑确定性策略梯度的机械臂路径规划方法

Info

Publication number: CN110328668B
Application number: CN201910685553.8A
Authority: CN
Inventors: 吴巍; 郭毓; 郭健; 肖潇; 蔡梁; 吴益飞; 吴钧浩; 郭飞; 张冕
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-07-27
Filing date: 2019-07-27
Publication date: 2022-03-22
Anticipated expiration: 2039-07-27
Also published as: CN110328668A

Abstract

本发明公开了一种基于速度平滑确定性策略梯度的机械臂路径规划方法，训练阶段构建带有作业任务反馈的机械臂仿真环境；在确定性策略梯度网络输入中引入前一步机械臂动作向量，构建基于速度平滑确定性策略梯度的强化学习网络框架；初始化网络训练参数和机械臂仿真环境；基于速度平滑确定性策略梯度网络和仿真环境获取样本，构建训练样本库，若训练样本数量达到最大样本数量，则按单次训练样本数量从训练样本库中抽取训练样本，训练速度平滑确定性策略梯度网络，否则进行下一步或者下一次仿真。本发明在确定性策略梯度网络的基础上，加入前一步速度向量作为网络输入，有效降低了关节加速度，减少了机械臂抖动。

Description

基于速度平滑确定性策略梯度的机械臂路径规划方法

技术领域

本发明涉及机械臂路径规划技术，具体涉及一种基于速度平滑确定性策略梯度的机械臂路径规划方法。

背景技术

随着机器人技术的不断发展，机械臂已逐渐代替人应用于建筑、码垛、医疗、带电作业等特种行业。传统的示教控制机械臂的方法，由于依赖人工给定路径，已不能满足复杂的应用场景和应用任务的需求。因此，机械臂自主路径规划技术是研发智能机器人的一项关键技术。

目前，基于采样路径规划和多目标优化的机械臂自主路径规划方法，能够适应不同的作业环境，但无法在线规划，且规划时间不可控。基于确定性策略梯度网络的机械臂自主路径规划方法，采用深度强化学习模型，其输出是连续动作量，可直接对应机械臂关节角度，并且由于不依赖采样规划方式，其规划时间固定，可实现机械臂在线路径规划。然而，由于没有进行平滑处理，输出的动作向量在前后时刻会有较大不同，产生过大的加速度，使机械臂产生抖动造成机械臂损伤。

发明内容

本发明的目的在于提供一种基于速度平滑确定性策略梯度的机械臂路径规划方法。

实现本发明目的的技术解决方案为：一种基于速度平滑确定性策略梯度的机械臂路径规划方法，包括训练阶段和测试阶段；

(一)训练阶段步骤如下：

步骤1、构建带有作业任务反馈的机械臂仿真环境；

步骤2，在确定性策略梯度网络输入中引入前一步机械臂动作向量，构建基于速度平滑确定性策略梯度的强化学习网络框架；

步骤3，初始化网络训练参数，包括感知机参数集合、训练样本库的最大样本数量、单次训练样本数量、最大仿真次、单次仿真最大步数和当前仿真次数；

步骤4，初始化机械臂仿真环境，包括目标位姿向量和机械臂初始状态向量，、前一步动作向量和当前步数；

步骤5，基于速度平滑确定性策略梯度网络和仿真环境获取样本，构建训练样本库，若训练样本数量达到最大样本数量，则执行步骤6，否则执行步骤7；

步骤6，按单次训练样本数量从训练样本库中抽取训练样本，训练速度平滑确定性策略梯度网络；

步骤7，判断是否完成作业任务或者当前步数是否达到单次仿真最大步数，若完成作业任务或者当前步数达到单次仿真最大步数，则执行步骤8，否则返回步骤5进行下一步仿真；

步骤8，判断当前仿真次数是否达到最大仿真次数，若达到，则结束训练过程，否则返回步骤4，进行下一次仿真；

(二)测试阶段步骤如下：

步骤1，根据实际目标位姿信息、机械臂关节角度初始化机械臂仿真环境，包括目标位姿向量、机械臂初始状态向量、前一步动作向量和当前步数；

步骤2，将当前状态向量和前一步动作向量输入速度平滑确定性策略梯度网络，得到当前动作向量；

步骤3，以当前动作向量控制机械臂运动，以此构建机械臂状态向量；

步骤4，判断机械臂是否完成作业任务，若完成则结束测试，否则返回步骤2进行下一步测试。

本发明与现有技术相比，其显著优点为：1)在确定性策略梯度网络的基础上，加入前一步速度向量作为网络输入，有效降低了关节加速度，减少了机械臂抖动；2)在损失函数中加入了对关节速度变化的惩罚项，确定了当前速度向量的大致趋势，提高了空间搜索效率，进而提高了训练速度。

附图说明

图1为基于速度平滑确定性策略梯度的机械臂路径规划流程图，其中(a)为训练阶段的流程图，(b)为测试阶段的流程图。

图2为机械臂仿真环境图。

图3为本发明构建的带有速度平滑的确定性策略梯度网络结构图。

具体实施方式

下面结合附图和具体实施例，进一步说明本发明方案。

本发明基于速度平滑确定性策略梯度的机械臂路径规划方法，以机械臂末端到达指定位姿为任务，将路径规划分为训练阶段和测试阶段，训练阶段流程如图1中的(a)所示，主要包括以下步骤：

步骤1，构建带有作业任务反馈的机械臂仿真环境，具体步骤如下：

利用虚拟仿真技术构建带有作业任务反馈的机械臂仿真环境，如图2所示。该仿真环境设有输入输出接口，输入接口可输入机械臂初始状态(机械臂各关节初始角度)、目标位姿、机械臂动作(当前机械臂关节角速度)，输出接口输出机械臂当前状态、机械臂做出动作后获得的即时奖励和一个标志位(是否到达目标位姿)。在该仿真环境中，虚拟机械臂会按照输入动作做出相应动作，当机械臂达到目标位姿时，输出的标志位会为1；

步骤2，在确定性策略梯度网络输入中引入前一步机械臂动作向量，构建基于速度平滑确定性策略梯度的强化学习网络框架，具体步骤如下：

步骤2-1，搭建基于速度平滑确定性策略梯度的强化学习网络，如图3所示。

确定性策略梯度网络由两个Actor-Critic结构网络组成，分别为训练网络和目标网络。本发明在训练网络和目标网络的输入中引入前一步机械臂动作向量a_-，即训练网络和目标网络的Actor部分的输入各有两个部分，分别为当前状态向量s与前一步机械臂动作向量a_-，输出为当前机械臂动作向量a。Critic部分的输入各有两个部分，分别为当前状态向量s和当前机械臂动作向量a，输出为未来奖励的期望。

各网络部分都由多层感知机组成，将训练网络Critic部分、训练网络Actor部分、目标网络Critic部分、目标网络Actor部分的感知机参数集合分别定义为θ^Q、θ^μ、θ^Q′、θ^μ′，则可将四个部分的输出分别定义为Q(s,a|θ^Q)、μ(s,a_-|θ^μ)、Q′(s,a|θ^Q′)、μ′(s,a_-|θ^μ′)。

训练网络Critic部分的损失函数(LossFunction)定义如下：

其中，N为单次训练的样本数量，s_t为第t个样本的机械臂当前状态向量，a_t为第t个样本的当前步动作向量，Q(s,a|θ^Q)为训练网络Critic部分的输出，y_t为中间变量，其定义如下：

y_t＝r_t+γQ′(s′_t,μ′(s′_t,a_t|θ^μ′)|θ^Q′) (2)

式中，γ为奖励的衰减系数，r_t为第t个样本的即时奖励，s′_t为第t个样本在(s_t,a_t)状态下仿真出的下一步机械臂的状态向量。

训练网络Actor部分的损失函数定义如下：

其中，κ为速度变化惩罚系数，a_t-为第t个样本的前一步动作向量，a_t不由样本直接获得，而由式(4)得到

a_t＝μ(s_t,a_t-|θ^μ) (4)

步骤2-2，定义样本格式，在本发明中，样本格式为(a_-,s,a,s′,r)，其中，a_-为前一步机械臂动作向量，s′为机械臂在当前状态向量为s的情况下，作出动作a，仿真出的下一步机械臂的状态向量，r为该情况下获得的即时奖励，s′和r由步骤1中的仿真环境输出得到。

步骤3，初始化网络参数，包括初始化感知机参数集合θ^Q、θ^μ、θ^Q′、θ^μ′和训练样本库的最大样本数量TN，设置目标网络更新参数τ、奖励衰减系数γ、速度变化惩罚系数κ以及单次训练样本数量N，初始化最大仿真次数E_max和单次仿真最大步数I_max，设置当前仿真次数e＝1；

步骤4，初始化机械臂仿真环境，包括随机设置目标位姿向量g和机械臂初始状态向量s₁，将前一步动作向量a₀设为零，并设置当前步数i＝1。

步骤5，从速度平滑确定性策略梯度网络和仿真环境中获得样本，并存入样本库，具体步骤如下：

步骤5-1，将当前状态向量s_i和前一步动作向量a_i-1作为训练网络的输入，输出当前动作a_i：

a_i＝μ(s_i,a_i-1|θ^μ) (5)

将当前动作a_i输入机械臂仿真环境，仿真出下一步的状态向量s_i+1以及得到即时奖励r_i。

将前一步动作向量a_i-1、当前状态向量s_i、当前动作向量a_i、下一步状态向量s_i+1、即时奖励r_i构建样本(a_i-1,s_i,a_i,s_i+1,r_i)存入训练样本库；

步骤5-2，判断训练样本数量是否达到最大样本数量TN，如果达到，则执行步骤6，如果未达到，则执行步骤7；

步骤6，从样本库中抽取训练样本，训练速度平滑确定性策略梯度网络并更新参数，具体步骤如下：

从样本库中按单次训练样本数量N抽取训练样本，训练速度平滑确定性策略梯度网络。

对于训练网络，采用梯度下降法，以公式(1)作为训练网络Critic部分的损失函数更新训练网络Critic部分的感知机参数集合，以公式(3)作为训练网络Actor部分的损失函数更新训练网络Actor部分的感知机参数集合；

对于目标网络，按如下公式更新目标网络Critic部分和目标网络Actor部分参数集合：

步骤7，判断是否完成作业任务或者当前步数是否达到单次仿真最大步数I_max，若i＝I_max或完成作业任务，则转至步骤8，否则更新当前步数，令i←i+1，并转至步骤5；

步骤8，判断当前仿真次数是否达到最大仿真次数E_max，若e＝E_max，则结束训练过程，否则更新当前仿真次数，即令e←e+1，并返回步骤4；

测试阶段流程如图1中的(b)所示，主要包括以下步骤：

步骤1，初始化机械臂状态，具体方法为：按实际目标位姿信息构建目标位姿向量g，按实际机械臂关节角度构建初始状态向量s₁，并将前一步动作向量a₀设为零，设置当前步数i＝1；

步骤2，将当前状态向量和前一步动作向量输入速度平滑确定性策略梯度网络，输出当前动作向量，具体方法为：将当前状态向量s_i和前一步动作向量a_i-1作为确定性策略梯度法目标网络Actor部分的输入，输出当前动作向量a_i并记录；

步骤3，以当前动作向量控制机械臂运动，具体方法为：将当前动作向量a_i输入机械臂控制器，运动完成后，按实际机械臂关节角度构建状态向量s_i+1；

步骤4，当前时刻i←i+1，若机械臂未完成作业任务，则返回步骤2，否则结束测试。

Claims

1.基于速度平滑确定性策略梯度的机械臂路径规划方法，其特征在于，包括训练阶段和测试阶段；

(一)训练阶段步骤如下：

步骤1、构建带有作业任务反馈的机械臂仿真环境；

步骤4，初始化机械臂仿真环境，包括目标位姿向量、机械臂初始状态向量、前一步动作向量和当前步数；

(二)测试阶段步骤如下：

步骤4，判断机械臂是否完成作业任务，若完成则结束测试，否则返回步骤2进行下一步测试；

训练阶段的步骤2中，构建基于速度平滑确定性策略梯度的强化学习网络框架具体为：

确定性策略梯度网络由两个Actor-Critic结构网络组成，分别为训练网络和目标网络，在训练网络和目标网络的输入中引入前一步机械臂动作向量a_-，即训练网络和目标网络的Actor部分的输入各有两个部分，分别为当前状态向量s与前一步动作向量a_-，输出为当前动作向量a；Critic部分的输入各有两个部分，分别为当前状态向量s和当前动作向量a，输出为未来奖励的期望；

训练网络和目标网络都由多层感知机组成，设训练网络Critic部分、训练网络Actor部分、目标网络Critic部分、目标网络Actor部分的感知机参数集合分别为θ^Q、θ^μ、θ^Q′、θ^μ′，四个部分的输出分别为Q(s,a|θ^Q)、μ(s,a_-|θ^μ)、Q′(s,a|θ^Q′)、μ′(s,a_-|θ^μ′)，则训练网络Critic部分的损失函数定义如下：

y_t＝r_t+γQ′(s′_t,μ′(s′_t,a_t|θ^μ′)|θ^Q′) (2)

式中，γ为奖励的衰减系数，r_t为第t个样本的即时奖励，s′_t为第t个样本在(s_t,a_t)状态下仿真出的下一步机械臂的状态向量；

训练网络Actor部分的损失函数定义如下：

a_t＝μ(s_t,a_t-|θ^μ) (4)

训练阶段的步骤5中，构建训练样本库的具体方法为：

将当前状态向量s_i和前一步动作向量a_i-1作为训练网络的输入，输出当前动作向量a_i：

a_i＝μ(s_i,a_i-1|θ^μ) (5)

将当前动作向量a_i输入机械臂仿真环境，仿真出下一步的状态向量s_i+1以及得到即时奖励r_i；

将前一步动作向量a_i-1、当前状态向量s_i、当前动作向量a_i、下一步状态向量s_i+1、即时奖励r_i构建样本(a_i-1,s_i,a_i,s_i+1,r_i)存入训练样本库。

2.根据权利要求1所述的基于速度平滑确定性策略梯度的机械臂路径规划方法，其特征在于，训练阶段的步骤1中，利用虚拟仿真技术构建带有作业任务反馈的机械臂仿真环境，该仿真环境设有输入接口和输出接口，输入接口用于输入机械臂初始状态向量即各关节初始角度、目标位姿、当前机械臂关节角速度，输出接口输出机械臂当前状态向量、机械臂做出动作后获得的即时奖励和一个标志位。

3.根据权利要求1所述的基于速度平滑确定性策略梯度的机械臂路径规划方法，其特征在于，训练阶段的步骤6中，训练速度平滑确定性策略梯度网络的具体方法为：

对于训练网络，采用梯度下降法，根据训练网络Critic部分的损失函数更新训练网络Critic部分的感知机参数集合，根据训练网络Actor部分的损失函数更新训练网络Actor部分的感知机参数集合；

式中，τ为目标网络更新参数。