CN111645065A

CN111645065A - 一种基于深度强化学习的机械臂运动规划方法

Info

Publication number: CN111645065A
Application number: CN202010218455.6A
Authority: CN
Inventors: 辛博; 傅汇乔; 陈春林; 程旭; 马晶
Original assignee: Nanjing Nanxin Medical Technology Research Institute Co ltd; Nanjing University
Current assignee: Nanjing Nanxin Medical Technology Research Institute Co ltd; Nanjing University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-09-11

Abstract

本发明公开一种基于深度强化学习的机械臂运动规划方法，包括：步骤1，在机械臂运动前采集一次环境图像，所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物；步骤2，根据采集到的环境图像，利用目标分割算法分离出禁止区域、工作区域以及目标位置，重构规划空间；步骤3，将重构得到的规划空间划分为三维栅格空间，并建立二值化栅格空间；步骤4，利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解，在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系；步骤5，为机械臂规划运动策略并获取最优运动策略，使得机械臂在避开障碍物的前提下，以最小代价运动到目标位置。

Description

一种基于深度强化学习的机械臂运动规划方法

技术领域

本发明涉及一种基于强化学习的动态智能规划方法,尤其是涉及一种6轴协作机械臂的运动规划方法。

背景技术

传统的机械臂轨迹规划多采用轨迹插补的方法，并结合高次多项式对机械臂的位置、速度以及加速度进行平滑，在这种方法下，机械臂的运动方案相对固定，无法主动避让环境中的障碍物。随着工业领域对机械臂的性能要求越来越高，需要机械臂完成更多的交互或者动态复杂空间的作业任务，传统的方法便不再适用。

近些年来，强化学习方法被越来越多地应用在机器人控制任务中，传统的强化学习方法如Q-learning算法，随着状态空间的增长，训练模型所需的内存空间也越大。2013年，谷歌Deepmind提出了DQN(Deep Q Network)算法，解决了高维度状态空间的问题。在DQN之前，人们普遍认为使用大型非线性函数逼近器来学习值函数是困难且不稳定的。该算法将深度学习与强化学习相结合，能够以稳定的方式使用类函数逼近器来学习价值函数，为了最小化样本之间的相关性，网络使用缓冲器中的样本进行离线训练，但难以应对高维连续动作空间。Actor-Critic方法能够处理连续动作空间问题，但使用随机性策略使得网络难以收敛。为此，2015年，谷歌Deepmind提出了DDPG(Deep Deterministic PolicyGradient)算法，利用Actor-Critic框架，融合DQN的优势，解决连续状态动作空间问题，同时采用确定性策略使得网络收敛性更佳。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明公开了一种机械臂运动规划方法，规划空间设置有标定完成的图像采集装置，用于划分工作区域与禁止区域。

技术方案：一种基于深度强化学习的机械臂运动规划方法，其特征在于，包括以下几个步骤：

步骤1，在机械臂运动前采集一次环境图像，所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物，得到初始规划空间；

步骤2，根据采集到的环境图像，利用目标分割算法分离出禁止区域、工作区域以及目标位置，重构初始规划空间；

步骤3，将重构得到的规划空间划分为三维栅格空间，并将栅格空间二值化，其中1代表禁止区域，0代表工作区域；

步骤4，利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解，在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系；

步骤5，利用深度强化学习算法在二值化后的规划空间中为机械臂规划运动策略并获取最优运动策略，使得机械臂在避开障碍物的前提下，以最小代价运动到目标位置。

本发明进一步限定的技术方案为：在步骤1中，利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。

作为优选，在步骤2中，采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类，得到重构后的环境三维空间信息。

作为优选，所述步骤3中，所述建立二值化三维栅格空间包括如下几个步骤：

步骤3.1，将步骤1中采集到的环境图像细化分割为等面积栅格；

步骤3.2，根据步骤2得到的障碍物Mask信息，对步骤3.1中的栅格进行分类；每个栅格中，若障碍物像素点占比超过预设的阈值50％，将此栅格设为障碍物栅格，并将其标记为黑色，否则，将其标记为白色，障碍物栅格构成禁止区域，非障碍物栅格构成工作区域。

作为优选，所述步骤4中，利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一，选定一组解析解后，在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系，作为所述步骤5中深度强化学习奖惩值给定依据。

作为优选，在步骤5中，包括：所述深度强化学习算法采用DDPG算法，输入量s_t包含机械臂末端点在栅格空间中的坐标与运动目标坐标，输出量a_t为机械臂末端点运动方向，分别为上、下、左、右、前和后，机械臂在避开障碍物的前提下，以最大回报为目标，运动到目标位置。

作为优选，所述DDPG算法，包括：

设置Actor网络和Critic网络的网络结构，隐藏层均使用ReLU作为激活函数，Actor网络的输出层使用tanh作为激活函数，输出其范围；

划分为6个区间，分别对应6个末端点运动方向，Critic网络的输出层不使用激活函数，训练过程中，学习网络的权重赋予给目标网络；

输出动作后，加入随机探索噪声增大训练初期探索概率，在程序中用正态分布曲线模拟该噪声，其期望为Actor网络输出值；

设置最大训练回合与每个回合最大步数。

作为优选，所述学习网络的权重赋予给目标网络的函数为：θ'←τθ+(1-τ)θ', 其中取τ＝10^-3，记忆库R的大小设为10⁴。

作为优选，所述训练过程包括以下几个步骤：

步骤5.1，初始化参数；

步骤5.2，在每一个训练回合开始时，使机械臂复位到零点位置；

步骤5.3，对于训练回合中的每一步，Actor网络输出带有随机探索噪声的动作；

步骤5.4，机械臂执行动作，运算出所有可能的解，然后将每组解根据运动代价升序排列，其中运动代价由机械臂每个自由度在当前位置下运动到目标位置角度的总和，根据步骤4，

若机械臂超出规划空间边界或者与禁止区域边界相交或者在当前末端点位置下没有可行的解析解存在，则给与第一惩罚值，机械臂回到上一状态；

若机械臂末端到达运动目标，则给与奖励，并结束当前回合，机械臂每走一步给与第二惩罚值，回合总步数大于预设每回合最大步数时结束当前回合；

若当前回合结束，则返回步骤5.2，若接收到第一惩罚值，当前回合未结束，则将机械臂设定到上一状态，返回步骤5.3；

步骤5.5，当训练回合数等于预设的最大回合数时，结束训练，得到规划空间下机械臂的最优运动策略。

作为优选，所述第一惩罚值为-10，第二惩罚值为-1，所述奖励为100。

有益效果：与现有技术相比，本发明(补充本方法相对目前方法的优点)

附图说明

图1为本发明实施例图像采集简化示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

本实施例提供一种基于深度强化学习的机械臂运动规划方法，以6自由度机械臂为例进行举例说明，具体包括以下几个步骤：

步骤1，图像采集装置在机械臂运动前采集一次环境图像，所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物，得到初始规划空间，其简化示意图如1所示。

步骤2，根据采集到的环境图像，利用目标分割算法分离出禁止区域(图1 中灰色区域)、工作区域即规划空间中除禁止区域外的机械臂末端运动空间以及目标位置，重构初始规划空间；

作为本实施例的优选，在步骤1中，利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。

作为本实施例的优选，在步骤2中，采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类，得到重构后的环境三维空间信息。

作为本实施例的优选，所述步骤3中，所述建立二值化三维栅格空间包括如下几个步骤：

作为本实施例的优选，所述步骤4中，对于6自由度机械臂，利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一，选定一组解析解后，在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系，作为步骤5中深度强化学习奖惩值给定依据。

作为本实施例的优选，在步骤5中，选择机械臂最优运动策略，是基于DDPG 算法，输入量s_t包含机械臂末端点在栅格空间中的坐标与运动目标坐标，输出量 a_t为机械臂末端点运动方向，分别为上、下、左、右、前和后，机械臂在避开障碍物的前提下，以最大回报为目标，运动到目标位置。在DDPG算法中，设置 Actor网络和Critic网络的网络结构为200×200×10×1，隐藏层均使用ReLU 作为激活函数，Actor网络的输出层使用tanh作为激活函数，其输出范围为[-1, 1]，将其划分为6个区间，分别对应了6个末端点运动方向，Critic网络的输出层不使用激活函数，训练过程中，学习网络的权重赋予给目标网络：θ'←τθ+(1-τ)θ',其中取τ＝10^-3，记忆库R的大小设为10⁴。在输出动作a_t后，加入了随机探索噪声增大训练初期探索概率，在程序中用正态分布曲线模拟该噪声，其期望为Actor网络输出值，方差从0.6逐渐下降到0。设置最大训练回合与每个回合最大步数为600。整个训练过程包括如下步骤：

步骤5.1，初始化参数；

步骤5.2，在每一个训练回合开始时，机械臂复位到零点位置；

步骤5.3，对于训练回合中的每一步，Actor网络输出带有随机探索噪声的动作a_t；

步骤5.4，机械臂执行动作a_t，运算出所有可能的解，然后将每组解根据运动代价升序排列，其中运动代价由机械臂每个自由度在当前位置P_c下运动到目标位置P_t角度的总和，即

根据步骤4，

若机械臂超出规划空间边界或者与禁止区域边界相交或者在当前末端点位置下没有可行的解析解存在，则给与-10惩罚，机械臂回到上一状态，

若机械臂末端到达运动目标，则给与100奖励，并结束当前回合，机械臂每走一步给与-1惩罚，回合总步数大于预设每回合最大步数时结束当前回合。

若当前回合结束，则返回步骤5.2，若接收到-10惩罚值，当前回合未结束，则将机械臂设定到上一状态，返回步骤5.3；

本实施例中DDPG算法逻辑如下：

1：初始化Actor和Critic的online神经网络参数θ^μ和θ^Q

2：将现实网络的参数复制到对应的估计网络参数：θ^Q′←θ^Q，θ^μ′←θ^μ

3：初始化预设内存缓冲区R

3.循环并对每一步

4：初始化UO随机过程

5：从(1到T)循环

6：Actor根据行为策略选择一个动作a_t，发送给环境并执行：

a_t＝μ(s_t|θ^μ)+N_t

7：行为策略是一个根据当前现实网络策略μ和随机UO噪声生成的随机过程，这个随机过程采样获得的a_t的值

8：环境执行a_t，返回奖励r_t和新的状态s_t+1

9：Actor将这个状态的转换过程(s_t,a_t,r_t,s_t+1)存入内存缓冲区R中，作为训练现实网络的数据集

10：从内存缓冲区R中随机抽取N个样本作为现实策略网络，现实Q网络的一个小尺寸的训练数据集，用(s_i,a_i,r_i,s_i+1)表示其中的单个训练数据

11：计算现实Q网络的梯度：

Q网络的损失函数定义：使用类似于监督式学习的方法，定义损失为均方差：

其中，y_i可以看作“标签”：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θμ′)|θ|^Q′)

基于标准的反向传播方法，可以求出θ^Q的梯度：

y_i的计算使用的是估计策略网络μ′和估计Q网络Q′，可以使学习过程更稳定，易于收敛。

12：更新现实Q网络，采用Adam optimizer更新θ^Q

13：计算策略网络的策略梯度：

策略梯度定义为J函数针对θ^μ的梯度，在离线训练时其策略梯度算法为：

存储的数据集(s_i,a_i,r_i,s_i+1)是基于智能体的行为策略β产生的，分布函数为ρ^β，因此在内存缓冲区中随机采样获得训练数据集时，根据蒙特卡洛方法，将数据带入上式可改写为：

14：更新现实策略网络参数θ^μ

15：软更新估计网络μ′和Q′

soft update:

16：结束该步

17：结束循环

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的机械臂运动规划方法，其特征在于，包括以下几个步骤：

步骤3，将重构得到的规划空间划分为三维栅格空间，并将栅格空间二值化；

2.根据权利要求1所述的基于深度强化学习的机械臂运动规划方法，其特征在于，在步骤1中，利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。

3.根据权利要求2所述的基于深度强化学习的机械臂运动规划方法，其特征在于，在步骤2中，采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类，得到重构后的环境三维空间信息。

4.根据权利要求3所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述步骤3中，所述建立二值化三维栅格空间包括如下几个步骤：

5.根据权利要求4所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述步骤4中，利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一，选定一组解析解后，在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系，作为所述步骤5中深度强化学习奖惩值给定依据。

6.根据权利要求5所述的基于深度强化学习的机械臂运动规划方法，其特征在于，在步骤5中，包括：所述深度强化学习算法采用DDPG算法，输入量s_t包含机械臂末端点在栅格空间中的坐标与运动目标坐标，输出量a_t为机械臂末端点运动方向，分别为上、下、左、右、前和后，机械臂在避开障碍物的前提下，以最大回报为目标，运动到目标位置。

7.根据权利要求6所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述DDPG算法，包括：

设置最大训练回合与每个回合最大步数。

8.根据权利要求7所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述学习网络的权重赋予给目标网络的函数为：θ'←τθ+(1-τ)θ',其中取τ＝10^-3，记忆库R的大小设为10⁴。

9.根据权利要求7所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述训练过程包括以下几个步骤：

步骤5.1，初始化参数；

10.根据权利要求9所述的基于深度强化学习的机械臂运动规划方法，其特征在于，所述第一惩罚值为-10，第二惩罚值为-1，所述奖励为100。