CN110238839B

CN110238839B - 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Info

Publication number: CN110238839B
Application number: CN201910287227.1A
Authority: CN
Inventors: 徐静; 侯志民; 乔红; 陈恳; 吴丹
Original assignee: Tsinghua University; Institute of Automation of Chinese Academy of Science
Current assignee: Tsinghua University; Institute of Automation of Chinese Academy of Science
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2020-10-20
Anticipated expiration: 2039-04-11
Also published as: CN110238839A; WO2020207219A1

Abstract

本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法，属于机器人装配技术领域。本发明利用通用动作值函数进行环境相关知识预测，并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入，输出用于优化非模型控制算法的参数，当深度强化学习网络迭代次数上限且装配符合要求时，输出训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。本发明可实现对已有非模型机器人控制算法的优化，缩短了机器人多轴孔装配所需的时间。

Description

一种利用环境预测优化非模型机器人多轴孔装配控制方法

技术领域

本发明涉及一种利用环境预测优化非模型机器人多轴孔装配控制方法，属于机器人装配技术领域。

背景技术

随着机器人被广泛的应用在工业中，机器人自动化装配技术具有巨大的市场应用前景，目前深度强化学习网络已被广泛的用来解决实际机器人复杂控制的应用场景中，基于深度强化学习网络使得机器人不需要对装配过程中的接触状态进行建模分析而是像人一样直接从环境中通过尝试学习出装配的技能。

针对目前工业中利用非模型学习算法来进行多轴孔装配任务，最先使用的是清华大学侯志民在其专利“一种利用深度强化学习实现机器人多轴孔装配的方法”中提出的基于确定性策略梯度搜索算法实现对机器人的装配动作进行控制，并利用传统模糊力控制方法产生经验训练数据，通过专家数据的训练能够保证强化学习模型快速学习，并且达到传统模糊力控制的水平。该方法还利用深度确定策略梯度搜索的方法继续进行训练，通过不断的与环境的交互逐渐优化装配决策的能力。尽管该非模型控制算法得到了快速发展并且越来越多的应用在实际工业中，但是其效果取决于需要大量的样本进行尝试，真实应用场景无法用来进行大量的尝试，这是限制这种非模型控制算法在真实环境中应用的主要挑战。

发明内容

本发明的目的是为克服已有的非模型控制技术在实际应用中使用的不足之处，提出一种利用环境预测优化非模型机器人多轴孔装配控制方法。本发明利用通用动作值函数从环境学习相关预测，并且通过设计模糊逻辑系统将学习到的预测作为输入，输出用于优化非模型强化学习控制算法的参数，从而实现对已有基于非模型强化控制的机器人装配方法进行优化，可缩短机器人多轴孔装配过程中搜索阶段的时间，提高生产中装配的效率。

本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法，包括以下步骤：

1)将六维力传感器安装在机器人的末端执行器上，将双孔零件固定在实验台上，在待装配双轴零件上定义轴三维坐标系X-Y-Z，轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点，Z轴正向为沿双轴零件的的轴线向下，X轴正向是沿双轴的右轴的圆心指向左轴的圆心，由右手螺旋定则得到Y轴正向；在双孔零件上定义孔坐标系X'-Y'-Z'，孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点，Z'轴的正向沿双孔的轴线方向向上，X'轴正向与X轴的正向相同，根据右手螺旋定则Y'与Y轴正向相反；

2)利用机器人控制器读取装配过程中的六维力传感器的数据，并给定装配过程中双轴零件的装配运动轨迹策略π，将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量o_t，将六维力传感器的观测值做为当前时刻t的环境的反馈值c_t，γ用来表示每次装配结束的状态，将对环境的相关预测表示为：

Q(o_t,π,c_t,γ)

3)将对于环境的相关预测利用参数w表示成状态o_t的线性函数或者非线性神经网络，并且利用时间差分算法利用在装配过程中收集的数据(o_t,π,c_t,γ)不断的迭代学习参数w：

δ_t＝c_t+γ·Q(o_t+1|w_t+1,π,γ)-Q(o_t|w_t,π,γ)

其中，α代表的是每一次的学习步长，δ_t代表时间差分算法计中t时刻的误差；

4)创建初始为空的经验数据集，设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据；

5)在连续动作控制的深度确定性梯度算法DDPG算法中，利用策略值函数Q^μ(s_t,a_t|θ^Q)＝E[R_t|s_t,a_t]，计算得到机器人装配过程中，在t时刻采取装配动作a_t时的预期评估值Q^μ(s_t,a_t|θ^Q)；

其中，s_t代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt,x_t,y_t,z_t,α_t,β_t,γ_t]，12维状态向量中的[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值，x_t,y_t,z_t代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态，α_t,β_t,γ_t代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角，a_t代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[P_x,P_y,P_z,R_x,R_y,R_z]的修正量，R_t为时刻t所获得的经折扣后的未来收益之和，

其中i为完成一次装配任务过程中的第i次装配动作，γ为折扣因子，γ∈[0,1]，r_t(s_t,a_t)为时刻t获得的奖励函数，T为一次装配任务的结束时刻；

6)定义一个奖励函数

其中h_t是t时刻待装配双轴零件的双轴在双孔零件中的插入深度，F(t)是t时刻获得的待装配双轴零件的受力状态，c是设定的计算系数用于控制F(t)对r_t(s_t,a_t)的影响程度，取值为0.01，h_T为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度，h_max是双轴零件的双轴在双孔零件中的要求插入深度，h₀是装配初始时双轴零件的双轴在双孔零件中的初始插入深度，h_T＜h_max代表装配任务没有完成，此时奖励值是一个负的惩罚值-r^penalty，t＜T表示在装配过程中的奖励值，h_T＝h_max代表装配任务完成，此时的奖励值是一个正向奖励r^large；

7)利用贝尔曼方程，将策略值函数Q^μ(s_t,a_t|θ^Q)改写为：

其中，μ(s_t+1)为深度强化学习网络中的动作网络在s_t+1状态下输出的待装配双轴零件双轴的装配动作；

8)利用策略值函数Q^μ(s_t,a_t|θ^Q)，定义一个损失函数：

L(θ^Q)＝E[(Q^μ(s_t,a_t|θ^Q)-N_t)²]，

其中，N_t代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数，N_t＝r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))，E代表计算括号里的期望即平均值通用符号；

利用公式

求解损失函数L(θ^Q)对网络参数θ^Q的梯度

利用公式

更新深度强化学习网络中评估网络的网络参数θ^Q，其中η为学习率；

9)利用步骤7)改写后的策略值函数值Q^μ(s_t,a_t|θ^Q)，采用链式求导方式，得到深度强化学习网络中动作网络输出的装配动作μ(s|θ^μ)))对网络参数θ^μ的策略梯度

利用公式

更新深度强化学习网络中的动作网络的网络参数θ^μ；

10)根据基于力的阻抗控制算法，将控制参数

和

作为输出量，将步骤1)-3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息，形成对应的逻辑规则，然后根据形成的逻辑规则设计一个模糊逻辑系统；

11)在t时刻，将当前获得的实时力传感器的值

根据设定的参考力和力矩

首先计算实时力与参考值之间的偏差

然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)-3)计算环境预测信息，利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数K_p和K_d，根据下式：

计算用于控制机器人轴孔装配过程中的六个基本动作

12)将实时采集到的力传感器的数据

和位置位姿信息

输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[-1,1]之间的修正值

13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值，根据下式计算：

得到t时刻控制机器人轴孔装配运动的最终动作值

14)机器人执行步骤13)中求得的最终动作值

根据步骤6)计算获得的奖励函数值r_t；

计算t+1时刻轴受到的合力F_x(t+1),F_y(t+1),F_z(t+1)和合力矩M_x(t+1),M_y(t+1),M_z(t+1)以及轴的位置位姿x_t+1,y_t+1,z_t+1,α_t+1,β_t+1,γ_t+1，作为t+1时刻的轴的状态s_t+1，将s_t,a_t,r_t,s_t+1记为作为一个新的经验数据样本并添加到经验数据集中，

15)从经验数据集中随机选取64个的经验数据样本，利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θ^Q进行更新，利用步骤9)对深度强化学习网络中的动作网络的网络参数θ^μ进行更新；

16)重复上述步骤11)-步骤15)的训练过程，对深度强化学习网络的网络参数θ^Q和θ^μ进行训练更新，当到达设定的训练次数上限后，将当前训练完毕后的深度强化学习网络用于实际装配过程，若装配过程中在完成时刻T时h_T小于h_max，则增加训练次数1000次或者将学习率减小为原来的0.9倍，然后重复上述步骤11)-15)的训练过程；若在完成时刻T时h_T等于h_max，则结束训练，得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。

本发明的特点及有益效果在于：

1、本发明方法是基于对环境已有的先验知识，通过学习关于环境的预测信息，来优化非模型的强化学习控制算法，从而提高已有的非模型强化学习控制算法的学习效率。

2、本发明利用通用动作值函数进行环境相关知识预测，并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入，输出用于优化非模型控制算法的参数，从而实现对已有非模型机器人控制算法进行优化，用来缩短了机器人多轴孔装配所需的时间。

附图说明

图1是本发明实施例中双轴孔装配实验平台结构示意图。

具体实施方式

本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法，下面结合附图和具体实施例进一步说明如下。

1)建立一个双轴孔装配实验平台，双轴孔装配实验平台结构如图1所示，图1中，1是待装配的双轴零件，2是待装配的双孔零件。将任意可以采集六维力的传感器(本发明中使用的是ABB的六维力传感器)安装到机器人(本发明可采用常规型号的机器人，本实施例采用的是)ABB IRB 1200)的末端执行器上，将双孔零件固定在实验台上，在待装配双轴零件上定义轴三维坐标系X-Y-Z，轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点，如图1所示Z轴正向为沿双轴零件的的轴线向下，X轴正向是沿双轴的右轴的圆心指向左轴的圆心，由右手螺旋定则得到Y轴正向；在双孔零件上定义孔坐标系X'-Y'-Z'，孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点，Z'轴的正向沿双孔的轴线方向向上，X'轴正向与X轴的正向相同，根据右手螺旋定则其Y'与Y轴正向相反。

2)利用机器人控制器从上位机读取装配过程中的六维力传感器的数据，并给定装配过程中双轴零件的装配运动轨迹策略π(π是根据当前双轴零件的轴的位姿信息和接触力大小决定机器人要采取装配动作中的三个平移动作和三个旋转动作)，将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量o_t，将六维力传感器的观测值做为当前时刻t要预测的环境的反馈值c_t，γ用来表示每次装配结束的状态。根据以上参数就可以将对环境的相关预测就可以表示为：

Q(o_t,π,c_t,γ)

3)将对于环境的相关预测利用参数w表示成状态o_t的线性函数或者非线性神经网络，并且利用时间差分算法(出自Richard Sutton的书Reinforcement learning:AnIntroduction)利用在装配过程中收集的数据(o_t,π,c_t,γ)不断的迭代学习参数w：

δ_t＝c_t+γ·Q(o_t+1|w_t+1,π,γ)-Q(o_t|w_t,π,γ)

其中，α代表的是每一次的学习步长，δ_t代表时间差分算法计算的t时刻的误差。

4)创建初始为空的经验数据集，设定经验数据集的容量为M(取值大于0),当经验数据集中经验样本数据添加满后采取先进先出的原则删除最先添加的经验样本数据。

5)在连续动作控制的深度确定性梯度算法(DDPG)算法中，利用策略值函数Q^μ(s_t,a_t|θ^Q)＝E[R_t|s_t,a_t]，计算得到机器人装配过程中，在t时刻采取装配动作a_t时的预期评估值Q^μ(s_t,a_t|θ^Q)

其中，s_t代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt,x_t,y_t,z_t,α_t,β_t,γ_t]，12维状态向量中的[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值，x_t,y_t,z_t代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态，α_t,β_t,γ_t代表t时刻从机器人控制器得到的待装配双轴零件双轴的位姿状态即分别沿XYZ每个坐标轴的转角，a_t代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[P_x,P_y,P_z,R_x,R_y,R_z]的修正量，R_t为时刻t所获得的经折扣后的未来收益之和，

6)定义一个奖励函数

将减小接触力和优化装配时间作为优化机器人多轴孔装配任务中优化的目标，其中h_t是t时刻待装配双轴零件的双轴在双孔零件中的插入深度，F(t)是t时刻获得的待装配双轴零件的受力状态，c是设定的计算系数用于控制F(t)对r_t(s_t,a_t)的影响程度，取值为0.01，h_T在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度，h_max是双轴零件的双轴在双孔零件中的要求插入深度，h₀是装配初始时双轴零件的双轴在双孔零件中的初始插入深度，h_T＜h_max代表装配任务没有完成，此时奖励值是一个负的惩罚值-r^penalty，t＜T表示在装配过程中的奖励值，h_T＝h_max代表装配任务能够完成，此时的奖励值是一个正向奖励r^large，最终奖励值r_t被限制在[-1,1]之间；

7)利用贝尔曼方程，将上述步骤5)中的策略值函数Q^μ(s_t,a_t|θ^Q)改写为：

其中，μ(s_t+1)即为深度强化学习网络中的动作网络在s_t+1状态下输出的待装配双轴零件双轴的装配动作；

8)利用步骤5)的策略值函数Q^μ(s_t,a_t|θ^Q)，定义一个损失函数：

L(θ^Q)＝E[(Q^μ(s_t,a_t|θ^Q)-N_t)²]，

利用公式

求解损失函数L(θ^Q)对网络参数θ^Q的梯度

利用公式

更新深度强化学习网络中评估网络的网络参数θ^Q，其中η为根据训练的数据量和网络的复杂度选择的远远小于1的学习率；

9)利用上述步骤7)改写后的策略值函数值Q^μ(s_t,a_t|θ^Q)，采用链式求导方式，得到深度强化学习网络中动作网络输出的装配动作μ(s|θ^μ)))对网络参数θ^μ的策略梯度

策略梯度

利用公式

更新深度强化学习网络中的动作网络的网络参数θ^μ，其中η为与步骤4-4)相同的学习率；

10)根据清华大学的张贶恩等人在论文(Force control for a rigid dual peg-in-hole assembly)中提出的基于力的阻抗控制算法，将控制算法中需要的控制参数

和

作为输出量，将步骤1)-3)之间学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息，根据已有的装配经验中关于上述输入输出的经验表达成形式如If-Then的逻辑规则，利用Matlab中的模糊逻辑工具箱将制定的逻辑规则设计一个模糊逻辑系统。

11)在t时刻，将当前获得的实时力传感器的值

根据设定的参考力和力矩

首先计算实时力与参考值之间的偏差

然后根据当前获得双轴零件受到的接触力和力矩信息根据步骤1)-3)计算环境预测信息，然后利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数K_p和K_d，根据下式：

计算出用于控制机器人轴孔装配过程中的六个基本动作

12)将实时采集到的力传感器的数据

和位置位姿信息

13)利用输出的修正值和步骤11)得到的六个基本动作值，根据下式计算：

得到t时刻控制机器人轴孔装配运动的最终动作值

14)机器人执行步骤13)中求得的最终动作值

轴和孔的接触状态会发生相应的变化，并且从环境中得到新的接触力和力矩，新的位置和位姿并且根据步骤6)需要计算获得的奖励函数值r_t。

计算t+1时刻轴受到的合力F_x(t+1),F_y(t+1),F_z(t+1)和合力矩M_x(t+1),M_y(t+1),M_z(t+1)以及轴的位置位姿x_t+1,y_t+1,z_t+1,α_t+1,β_t+1,γ_t+1，作为t+1时刻的轴的状态s_t+1，将上述数据s_t,a_t,r_t,s_t+1记为作为一个新的经验数据样本并添加到经验数据集中，

15)从经验数据集中随机选取64个的经验数据样本，利用步骤8)对深度强化学习中的评估网络的网络参数θ^Q进行更新，利用步骤9)对深度强化学习网络中的动作网络的网络参数θ^μ进行更新；

16)重复上述步骤11)-步骤15)的训练过程，对深度强化学习网络的网络参数θ^Q和θ^μ进行训练更新，当到达设定的训练次数上限后，将当前训练完毕后的深度强化学习网络用于实际装配过程，若装配过程中在完成时刻T时轴在孔中的完成插入深度h_T小于要求插入深度h_max，增加训练次数1000次，或者将学习率减小为原来的0.9倍，重复上述步骤4)-15)的训练过程；若在完成时刻T轴在孔中的完成插入深度h_T等于要求插入深度h_max，则结束训练，得到最终训练完毕的深度强化学习网络并用于实际多轴孔装配过程中输出装配动作，将产生的装配动作生成用于控制机器人的控制指令，完成多轴孔装配任务。

Claims

1.一种利用环境预测优化非模型机器人多轴孔装配控制方法，包括以下步骤：

1)将六维力传感器安装在机器人的末端执行器上，将双孔零件固定在实验台上，在待装配双轴零件上定义轴三维坐标系X-Y-Z，轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点，Z轴正向为沿双轴零件的的轴线向下，X轴正向是沿双轴的右轴的圆心指向左轴的圆心，由右手螺旋定则得到Y轴正向；在双孔零件上定义孔坐标系X'-Y'-Z'，孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点，Z′轴的正向沿双孔的轴线方向向上，X′轴正向与X轴的正向相同，根据右手螺旋定则Y'与Y轴正向相反；

其特征在于，该方法还包括以下步骤：

Q(o_t,π,c_t,γ)

δ_t＝c_t+γ·Q(o_t+1|w_t+1,π,γ)-Q(o_t|w_t,π,γ)