CN108161934B

CN108161934B - 一种利用深度强化学习实现机器人多轴孔装配的方法

Info

Publication number: CN108161934B
Application number: CN201711420089.7A
Authority: CN
Inventors: 徐静; 侯志民; 王国磊; 吴丹; 陈恳; 宋立滨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-06-09
Anticipated expiration: 2037-12-25
Also published as: CN108161934A

Abstract

本发明涉及一种利用深度强化学习实现机器人多轴孔装配的方法，属于机器人装配技术领域。本发明方法在训练过程中，将利用传统模糊力控制方法与深度强化学习网络基于仿真模型产生的专家经验数据和普通经验数据加入经验数据集，从经验数据集中随机抽取经验数据对深度强化学习网络进行训练，使该网络的装配动作能够快速的达到传统模糊控制方法的装配水平并且继续训练可以超过传统模糊控制方法的装配效果。将利用仿真模型训练好的深度强化学习网络直接用于实际机器人多轴孔装配任务，本发明方法利用仿真模型产生的经验数据进行训练，解决了实际装配环境无法提供足够训练数据的难题同时也降低了训练的成本。

Description

一种利用深度强化学习实现机器人多轴孔装配的方法

技术领域

本发明涉及一种利用深度强化学习实现机器人多轴孔装配的方法，属于机器人装配技术领域。

背景技术

智能制造快速发展的趋势下，机器人自动化装配技术具有巨大的市场需求，已经被越来越多的应用在各种装配领域中。针对目前工业中存在的大量多轴孔装配任务，使用最多的是清华大学机械系制造所机器人及其自动化研究室的张贶恩在其论文“Forcecontrol for a rigid dual peg-in-hole assembly”中提出的基于模糊力控制的方法，该方法基于对轴孔的配合接触状态进行详细分析，建立不同状态下的接触力模型，针对每种接触模型可以分别进行使用各种简单控制方法完成。但是这种方法随着由于随着装配模型逐渐复杂比如需要同时完成多轴孔的装配任务时，其接触状态会呈指数速度增长并且其卡阻模型无法得到准确分析，这也就导致目前这种传统模糊控制方法很难实现稳定控制，并且其对不同的装配环境通用性差泛化能力差。对不同多轴孔装配环境通用性强的控制方法一直是机器人自动化装配领域研究的重点，随着人工智能技术在快速发展并且被越来越多应用于在工业中，深度强化学习这种已经在很多机器人控制领域被验证了其强大的决策控制能力的控制方法有望解决这一难题。

发明内容

本发明的目的是提出一种利用深度强化学习实现机器人多轴孔装配的方法，利用基于确定性策略梯度搜索算法实现对机器人的装配动作进行控制，并利用传统模糊力控制方法产生经验训练数据，通过专家数据的训练能够保证强化学习模型快速学习，并且达到传统模糊力控制的水平。本发明还利用深度确定策略梯度搜索的方法继续进行训练，通过不断的与环境的交互逐渐优化装配决策的能力。

本发明提出的利用深度强化学习实现机器人多轴孔装配的方法，包括建立仿真模型，利用建立的仿真模型生成经验数据集，以及利用经验数据集中的数据对深度强化学习网络进行训练，完成机器人的装配任务，

其中仿真模型的建立包括以下步骤：

(1)在待装配轴部件上建立轴三维坐标系X-Y-Z，三维坐标系X-Y-Z的坐标原点O位于待装配轴上表面两轴圆心连线的中点，Z轴正向沿轴的轴线向下，X轴正向是沿左边轴的圆心指向右边，由右手螺旋定则得到Y轴正向；在待装配孔部件上建立孔坐标系X'-Y'-Z'，孔坐标系X'-Y'-Z'的坐标原点O'位于待装配孔底座上表面两孔圆心连线的中点，Z'轴的正向沿轴线方向向上，X'轴正向与X轴的正向相同，根据右手螺旋定则其Y'与Y轴正向是相反的；

(2)当待装配轴插入待装配孔中时，形成上接触点和下接触点，记上接触点所在的轴截面向轴坐标系的Z轴方向的投影为上接触面，将下接触点所在的轴截面向孔坐标系的Z'轴方向的投影为下接触面；

分别利用以下公式，计算上接触点在X-Y平面内变形量Δ_2xy和上接触点在Z方向的变形量Δ_2z：

Δ_2z＝Δ_2xy·sinθ，

其中，R_p代表待装配轴的半径，x₂和y₂为上接触点在轴坐标系中的坐标，角度θ为每根轴的轴线与配合的孔轴线之间的夹角；

设下接触点处Z'方向的变形量为零，利用下式，计算下接触点1在X'-Y'平面内的变形量Δ_1xy：

其中，x₁和y₁为下接触点1在孔坐标系中的坐标，R_p代表待装配轴的半径；

(3)根据上述步骤(2)计算得到的变形量，利用下式计算得到下接触点1处在X'-Y'平面内的接触压力F_N1xy，

F_N1xy＝kΔ_1xy

其中，k为从材料词典中查得的待装配孔材料的弹性变形系数，

根据下接触点1在孔坐标系中位置坐标(x₁,y₁)，利用下式接触点1在X'-Y'平面内的接触压力F_N1xy得到X'向和Y'向的分力F_1x和F_1y：

利用公式F_1z＝F_1f＝μF_N1xy得到下接触点1处Z'方向摩擦力F_1f，μ为轴孔材料之间的摩擦系数；

利用以下公式，计算上接触点2处X-Y平面的接触压力F_N2xy、Z向接触压力F_N2z以及摩擦力F_2f：

利用以下公式，对上接触点的接触压力F_N2xy在X-Y平面内进行分解得到F_N2xy在X向和Y向的分力F_2x和F_2y，将Z向所有受力进行合并得到合力F_2z：

(4)遍历每对轴孔，重复上述步骤(2)和(3)计算出每根轴和孔上下两个接触点在轴坐标系X、Y和Z三个方向的分力，利用公式

将所有接触点的力进行合并，计算出待装配轴在轴坐标系原点所受的到合力F，式中的F_jx，F_jy和F_jz为第j个接触点处待装配轴受到的三个方向的分力；

利用公式

求出待装配轴所受到的合力矩M，其中的r_j和F_j分别代表第j个接触点在轴坐标系中的坐标矢量和所受到的合力；

将轴的坐标原点在孔坐标系X'-Y'-Z'中的坐标x,y,z作为轴的当前位置状态，利用式

计算得到轴在孔坐标系X'-Y'-Z'中的位姿状态α,β,γ，其中

代表轴坐标系与孔坐标系所有坐标轴的方向向量；

其中，利用经验数据集中的数据对深度强化学习网络进行训练，完成机器人的装配任务的步骤如下：

(5)根据上述步骤(4)建立的仿真模型计算得到的合力和合力矩以及轴的位置位姿状态，利用策略值函数Q^μ(s_t,a_t|θ^Q)＝E[R_t|s_t,a_t]，计算得到机器人装配过程中，在t时刻采取装配动作a_t时的预期评估值Q^μ(s_t,a_t|θ^Q)，

其中，s_t代表t时刻深度强化学习网络输入的轴的12维状态向量[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt,x_t,y_t,z_t,α_t,β_t,γ_t]，12维状态向量中的[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt]代表t时刻从上述步骤(4)建立的仿真模型计算得到的力和力矩，x_t,y_t,z_t代表t时刻由步骤(4)计算得到的轴的位置状态，α_t,β_t,γ_t代表t时刻由步骤(4)计算得到的轴的位姿状态，a_t代表t时刻深度强化学习网络输出的装配过程中采取的6维装配动作向量[P_x,P_y,P_z,R_x,R_y,R_z]，R_t为时刻t所获得的经折扣后的未来收益之和，

其中i为完成一次装配任务过程中的第i次装配动作，γ为折扣因子，γ∈[0,1]，r_t(s_t,a_t)为时刻t获得的及时奖励，T为一次装配任务的结束时刻；

(6)定义一个奖励函数

将减小接触力和优化装配时间作为优化机器人多轴孔装配任务中优化的目标，其中h_t是t时刻轴在孔中的插入深度，F(t)是t时刻获得的轴的受力状态，c是设定的计算系数用于控制F(t)对r_t(s_t,a_t)的影响程度，取值为0.01，h_T为装配完成时刻T的轴在孔中的完成插入深度，h_max是轴在孔中的要求插入深度，h₀是装配初始时轴在孔中的初始插入深度，h_T＜h_max代表装配任务没有完成，此时奖励值是一个负的惩罚值-r^penalty，t＜T表示在装配过程中的奖励值，h_T＝h_max代表装配任务能够完成，此时的奖励值是一个正向奖励r^large；

(7)利用贝尔曼方程，将上述步骤(5)中的策略值函数Q^μ(s_t,a_t|θ^Q)改写为：

其中，μ(s_t+1)即为深度强化学习网络在s_t+1状态下输出的轴的装配动作；

(8)利用上述步骤(7)的策略值函数Q^μ(s_t,a_t|θ^Q)，定义一个损失函数：

L(θ^Q)＝E[(Q^μ(s_t,a_t|θ^Q)-N_t)²]，

其中，N_t代表深度强化学习网络中评估网络要达到的目标策略值函数，N_t＝r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))，E代表计算括号里的期望即平均值通用符号；

利用公式

求解损失函数L(θ^Q)对网络参数θ^Q的梯度

利用公式

更新深度强化学习网络中评估网络的网络参数θ^Q，其中η为根据训练的数据量和网络的复杂度选择的远远小于1的学习率；

(9)利用上述步骤(7)的策略值函数值Q^μ(s_t,a_t|θ^Q)，采用链式求导方式，得到深度强化学习网络中决策网络输出的装配动作μ(s|θ^μ)对网络参数θ^μ的策略梯度

策略梯度

利用公式

更新深度强化学习中的策略网络的网络参数θ^μ，其中η为与步骤(8)相同的学习率；

(10)向控制原理如图7所示的模糊力控制方法中输入由步骤(4)计算得到的t时刻轴的状态s_t，输出得到在状态s_t时的装配动作a_t；

根据步骤(6)中奖励函数的计算方式，得到在状态s_t时采取装配动作a_t获得的奖励函数r_t，

将上述步骤(4)计算得到t+1时刻轴受到的合力F_x(t+1),F_y(t+1),F_z(t+1)和合力矩M_x(t+1),M_y(t+1),M_z(t+1)以及轴的位置位姿x_t+1,y_t+1,z_t+1,α_t+1,β_t+1,γ_t+1，作为t+1时刻的轴的状态s_t+1，将上述数据s_t,a_t,r_t,s_t+1记为专家数据；

(11)向深度强化学习网络的决策网络中输入上述步骤(4)计算得到的t时刻轴的状态s_t，输出得到在状态s_t时的装配动作

根据步骤(6)中奖励函数公式，计算得到状态s_t时采用装配动作

的奖励函数

根据上述步骤(4)计算得到t+1时刻轴受到的合力

和合力矩

以及轴的位置位姿

作为t+1时刻的轴的状态

将上述数据s_t,

记为经验数据；

(12)将上述步骤(10)的专家数据s_t,a_t,r_t,s_t+1和步骤(11)的经验数据s_t,

一起添加到经验数据集中，

(13)从上述步骤(12)的经验数据集中随机提取根据经验数据集容量大小设定数目的经验数据，利用上述步骤(8)对深度强化学习中的评估网络的网络参数θ^Q进行更新，利用上述步骤(9)对深度强化学习中的评估网络的网络参数θ^μ进行更新；

(14)重复上述步骤(5)-步骤(11)的训练过程，经过设定的万次以上重复后，对深度强化学习网络的网络参数θ^Q和θ^μ进行训练更新，将得到的深度强化学习网络用于实际装配过程，若装配过程中在完成时刻T时轴在孔中的完成插入深度h_T小于要求插入深度h_max，则增大设定的训练次数，并减小学习率，重复上述步骤(5)-(11)的训练过程，若在完成时刻T轴在孔中的完成插入深度h_T等于要求插入深度h_max，则结束训练，并将具有经过训练更新之后的深度强化学习网络用于实际多轴孔装配过程中输出装配动作，将产生的装配动作生成用于控制机器人的控制指令，完成多轴孔装配任务。

本发明提出的利用深度强化学习实现机器人多轴孔装配的方法，其优点是：

1、本发明提出的机器人多轴孔装配的方法中涉及的基于深度强化学习的控制方法，是一种不依赖于模型分析，而且非线性拟合能力强的控制方法，适用于对不同的机器人多轴孔装配任务进行控制。

2、本发明方法利用基于确定性策略梯度搜索的深度强化学习控制方法，其输出的装配动作是确定性的连续动作值，确定性动作波动性小适合于实际控制任务；并且在用于训练的经验数据集中加入传统模糊控制方法产生的专家经验数据，专家经验数据的加入使该深度强化学习控制方法网络在较少次数的训练后学习出传统模糊控制方法的装配技能并且超过它。

3、本发明提出的用于机器人多轴孔装配的控制方法，通过仿真模型产生经验数据进行训练学习，当经过训练后的深度强化学习网络能够完成指定的多轴孔装配任务时，将深度强化学习网络迁移到实际装配环境中用于完成机器人多轴孔装配任务。这种训练方式是利用仿真模型产生的经验数据进行训练，解决了实际装配环境无法提供足够训练数据的难题，同时也降低了训练的成本。

附图说明

图1是本发明方法的流程框图。

图2是本发明方法中涉及的三维轴孔装配模型及其轴、孔坐标系的定义示意图。

图3是图1所示的三维轴孔装配模型简化后的仿真模型示意图。

图4是仿真模型中接触点和接触变形的判断计算示意图。

图5是仿真模型中上接触面中接触点的变形量计算示意图。

图6是仿真模型中下接触面中接触点的变形量计算示意图。

图7是本发明中基于强化学习控制方法的网络具体结构示意图。

图8是传统模糊力控制方法的具体控制框图。

图2-图6中，1是待装配的多轴零件部分，2是待装配的多孔零件部分，3是简化后的轴，4是简化后的孔，5是下接触点，6是上接触点，7是下接触面，8是上接触面，9是孔在上接触面的投影，10是轴在上接触面的投影，11是孔在下接触面的投影，12是轴在下接触面的投影12。

具体实施方式

本发明提出的利用深度强化学习实现机器人多轴孔装配的方法，其流程框图如图1所示，包括建立仿真模型，利用建立的仿真模型生成经验数据集，以及利用经验数据集中的数据对深度强化学习网络进行训练，完成机器人的装配任务，

其中仿真模型的建立包括以下步骤：

(1)在待装配轴部件上建立轴三维坐标系X-Y-Z，三维坐标系X-Y-Z的坐标原点O位于待装配轴上表面两轴圆心连线的中点，Z轴正向沿轴的轴线向下，X轴正向是沿左边轴的圆心指向右边，由右手螺旋定则得到Y轴正向；在待装配孔部件上建立孔坐标系X'-Y'-Z'，孔坐标系X'-Y'-Z'的坐标原点O'位于待装配孔底座上表面两孔圆心连线的中点，Z'轴的正向沿轴线方向向上，X'轴正向与X轴的正向相同，根据右手螺旋定则其Y'与Y轴正向是相反的；如图2所示，图2中，1是待装配的多轴零件部分，2是待装配的多孔零件部分。

(2)将图2中的待装配模型进行简化得到图3所示的简化模型示意图，图3中，3是简化后的轴，4是简化后的孔，简化模型示意图中的每一对待装配轴与孔之间的配合都存在如图4所示的上接触点和下接触点。图4中，5是下接触点，6是上接触点，7是下接触面，8是上接触面，当待装配轴插入待装配孔中时，形成上接触点2和下接触点1，记上接触点2所在的轴截面向轴坐标系的Z轴方向的投影为上接触面4，如图5所示，图5中，9是孔在上接触面的投影，10是轴在上接触面的投影。将下接触点所在的轴截面向孔坐标系的Z'轴方向的投影为下接触面，如图6所示，图6中，11是孔在下接触面的投影，12是轴在下接触面的投影12。

分别利用以下公式，计算上接触点2在X-Y平面内变形量Δ_2xy和上接触点2在Z方向的变形量Δ_2z：

Δ_2z＝Δ_2xy·sinθ，

其中，R_p代表待装配轴的半径，x₂和y₂为上接触点2在轴坐标系中的坐标，角度θ为每根轴的轴线与配合的孔轴线之间的夹角；

F_N1xy＝kΔ_1xy

利用公式F_1z＝F_1f＝μF_N1xy得到下接触点1处Z'方向摩擦力F_1f，μ为轴孔材料之间的摩擦系数，可以从《机械设计手册》中查取；

利用公式

计算得到轴在孔坐标系X'-Y'-Z'中的位姿状态α,β,γ，其中

代表轴坐标系与孔坐标系所有坐标轴的方向向量；

上述步骤(1)-(4)建立的仿真模型，可以根据轴孔的接触状态计算出此时待装配轴所受到的合力和合力矩以及轴当前的位置位姿状态。

本发明的基于深度强化学习方法的机器人多轴孔装配方法中，对该深度强化学习的评估网络和决策网络具体如图6所示，利用上述步骤建立的仿真模型提供数据进行训练，然后利用训练好的基于深度强化学习网络可以在轴孔装配中通过不断输入从传感器获得的轴的位置位姿和受到的合力以及合力矩，决策网络便可以输出机器人装配需要的采取的装配动作。

(6)定义一个奖励函数

L(θ^Q)＝E[(Q^μ(s_t,a_t|θ^Q)-N_t)²]，

利用公式

求解损失函数L(θ^Q)对网络参数θ^Q的梯度

利用公式

更新深度强化学习网络中评估网络的网络参数θ^Q，其中η为根据训练的数据量和网络的复杂度选择的远远小于1的学习率；η＜＜1(远远小于1)的学习率保证了决策网络和评估网络在训练过程中能够不断收敛；

策略梯度

利用公式

的奖励函数

根据上述步骤(4)计算得到t+1时刻轴受到的合力

和合力矩

以及轴的位置位姿

作为t+1时刻的轴的状态

将上述数据s_t,

记为经验数据；

一起添加到如图7所示的经验数据集中，

随着基于深度强化学习网络输出的装配动作不断得到改善，逐步减小模糊力控制方法产生的专家经验数据在经验数据集中的比例，增加深度强化学习网络中决策网络利用探索策略产生的优于模糊力控制方法的装配动作，探索策略选择随机数产生(OU)过程；