CN110238839B - 一种利用环境预测优化非模型机器人多轴孔装配控制方法 - Google Patents

一种利用环境预测优化非模型机器人多轴孔装配控制方法 Download PDF

Info

Publication number
CN110238839B
CN110238839B CN201910287227.1A CN201910287227A CN110238839B CN 110238839 B CN110238839 B CN 110238839B CN 201910287227 A CN201910287227 A CN 201910287227A CN 110238839 B CN110238839 B CN 110238839B
Authority
CN
China
Prior art keywords
shaft
assembly
double
network
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910287227.1A
Other languages
English (en)
Other versions
CN110238839A (zh
Inventor
徐静
侯志民
乔红
陈恳
吴丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Institute of Automation of Chinese Academy of Science
Original Assignee
Tsinghua University
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Institute of Automation of Chinese Academy of Science filed Critical Tsinghua University
Priority to CN201910287227.1A priority Critical patent/CN110238839B/zh
Publication of CN110238839A publication Critical patent/CN110238839A/zh
Priority to PCT/CN2020/080017 priority patent/WO2020207219A1/zh
Application granted granted Critical
Publication of CN110238839B publication Critical patent/CN110238839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P19/00Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion

Abstract

本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,属于机器人装配技术领域。本发明利用通用动作值函数进行环境相关知识预测,并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入,输出用于优化非模型控制算法的参数,当深度强化学习网络迭代次数上限且装配符合要求时,输出训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。本发明可实现对已有非模型机器人控制算法的优化,缩短了机器人多轴孔装配所需的时间。

Description

一种利用环境预测优化非模型机器人多轴孔装配控制方法
技术领域
本发明涉及一种利用环境预测优化非模型机器人多轴孔装配控制方法,属于机器人装配技术领域。
背景技术
随着机器人被广泛的应用在工业中,机器人自动化装配技术具有巨大的市场应用前景,目前深度强化学习网络已被广泛的用来解决实际机器人复杂控制的应用场景中,基于深度强化学习网络使得机器人不需要对装配过程中的接触状态进行建模分析而是像人一样直接从环境中通过尝试学习出装配的技能。
针对目前工业中利用非模型学习算法来进行多轴孔装配任务,最先使用的是清华大学侯志民在其专利“一种利用深度强化学习实现机器人多轴孔装配的方法”中提出的基于确定性策略梯度搜索算法实现对机器人的装配动作进行控制,并利用传统模糊力控制方法产生经验训练数据,通过专家数据的训练能够保证强化学习模型快速学习,并且达到传统模糊力控制的水平。该方法还利用深度确定策略梯度搜索的方法继续进行训练,通过不断的与环境的交互逐渐优化装配决策的能力。尽管该非模型控制算法得到了快速发展并且越来越多的应用在实际工业中,但是其效果取决于需要大量的样本进行尝试,真实应用场景无法用来进行大量的尝试,这是限制这种非模型控制算法在真实环境中应用的主要挑战。
发明内容
本发明的目的是为克服已有的非模型控制技术在实际应用中使用的不足之处,提出一种利用环境预测优化非模型机器人多轴孔装配控制方法。本发明利用通用动作值函数从环境学习相关预测,并且通过设计模糊逻辑系统将学习到的预测作为输入,输出用于优化非模型强化学习控制算法的参数,从而实现对已有基于非模型强化控制的机器人装配方法进行优化,可缩短机器人多轴孔装配过程中搜索阶段的时间,提高生产中装配的效率。
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)将六维力传感器安装在机器人的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z'轴的正向沿双孔的轴线方向向上,X'轴正向与X轴的正向相同,根据右手螺旋定则Y'与Y轴正向相反;
2)利用机器人控制器读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π,将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t的环境的反馈值ct,γ用来表示每次装配结束的状态,将对环境的相关预测表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
Figure BDA0002023684250000021
其中,α代表的是每一次的学习步长,δt代表时间差分算法计中t时刻的误差;
4)创建初始为空的经验数据集,设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据;
5)在连续动作控制的深度确定性梯度算法DDPG算法中,利用策略值函数Qμ(st,atQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,atQ);
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,ztttt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αttt代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,
Figure BDA0002023684250000031
其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
6)定义一个奖励函数
Figure BDA0002023684250000032
其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务完成,此时的奖励值是一个正向奖励rlarge
7)利用贝尔曼方程,将策略值函数Qμ(st,atQ)改写为:
Figure BDA0002023684250000036
其中,μ(st+1)为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用策略值函数Qμ(st,atQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,atQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
利用公式
Figure BDA0002023684250000033
求解损失函数L(θQ)对网络参数θQ的梯度
Figure BDA0002023684250000034
利用公式
Figure BDA0002023684250000035
更新深度强化学习网络中评估网络的网络参数θQ,其中η为学习率;
9)利用步骤7)改写后的策略值函数值Qμ(st,atQ),采用链式求导方式,得到深度强化学习网络中动作网络输出的装配动作μ(s|θμ)))对网络参数θμ的策略梯度
Figure BDA0002023684250000041
Figure BDA0002023684250000042
利用公式
Figure BDA0002023684250000043
更新深度强化学习网络中的动作网络的网络参数θμ
10)根据基于力的阻抗控制算法,将控制参数
Figure BDA0002023684250000044
Figure BDA0002023684250000045
Figure BDA0002023684250000046
作为输出量,将步骤1)-3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,形成对应的逻辑规则,然后根据形成的逻辑规则设计一个模糊逻辑系统;
11)在t时刻,将当前获得的实时力传感器的值
Figure BDA0002023684250000047
根据设定的参考力和力矩
Figure BDA0002023684250000048
首先计算实时力与参考值之间的偏差
Figure BDA0002023684250000049
Figure BDA00020236842500000410
然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)-3)计算环境预测信息,利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
Figure BDA00020236842500000411
计算用于控制机器人轴孔装配过程中的六个基本动作
Figure BDA00020236842500000412
12)将实时采集到的力传感器的数据
Figure BDA00020236842500000413
和位置位姿信息
Figure BDA00020236842500000414
输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[-1,1]之间的修正值
Figure BDA00020236842500000415
13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值,根据下式计算:
Figure BDA00020236842500000416
得到t时刻控制机器人轴孔装配运动的最终动作值
Figure BDA00020236842500000417
14)机器人执行步骤13)中求得的最终动作值
Figure BDA00020236842500000418
根据步骤6)计算获得的奖励函数值rt
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1t+1t+1t+1,作为t+1时刻的轴的状态st+1,将st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时hT小于hmax,则增加训练次数1000次或者将学习率减小为原来的0.9倍,然后重复上述步骤11)-15)的训练过程;若在完成时刻T时hT等于hmax,则结束训练,得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。
本发明的特点及有益效果在于:
1、本发明方法是基于对环境已有的先验知识,通过学习关于环境的预测信息,来优化非模型的强化学习控制算法,从而提高已有的非模型强化学习控制算法的学习效率。
2、本发明利用通用动作值函数进行环境相关知识预测,并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入,输出用于优化非模型控制算法的参数,从而实现对已有非模型机器人控制算法进行优化,用来缩短了机器人多轴孔装配所需的时间。
附图说明
图1是本发明实施例中双轴孔装配实验平台结构示意图。
具体实施方式
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,下面结合附图和具体实施例进一步说明如下。
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)建立一个双轴孔装配实验平台,双轴孔装配实验平台结构如图1所示,图1中,1是待装配的双轴零件,2是待装配的双孔零件。将任意可以采集六维力的传感器(本发明中使用的是ABB的六维力传感器)安装到机器人(本发明可采用常规型号的机器人,本实施例采用的是)ABB IRB 1200)的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,如图1所示Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z'轴的正向沿双孔的轴线方向向上,X'轴正向与X轴的正向相同,根据右手螺旋定则其Y'与Y轴正向相反。
2)利用机器人控制器从上位机读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π(π是根据当前双轴零件的轴的位姿信息和接触力大小决定机器人要采取装配动作中的三个平移动作和三个旋转动作),将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t要预测的环境的反馈值ct,γ用来表示每次装配结束的状态。根据以上参数就可以将对环境的相关预测就可以表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法(出自Richard Sutton的书Reinforcement learning:AnIntroduction)利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
Figure BDA0002023684250000061
其中,α代表的是每一次的学习步长,δt代表时间差分算法计算的t时刻的误差。
4)创建初始为空的经验数据集,设定经验数据集的容量为M(取值大于0),当经验数据集中经验样本数据添加满后采取先进先出的原则删除最先添加的经验样本数据。
5)在连续动作控制的深度确定性梯度算法(DDPG)算法中,利用策略值函数Qμ(st,atQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,atQ)
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,ztttt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αttt代表t时刻从机器人控制器得到的待装配双轴零件双轴的位姿状态即分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,
Figure BDA0002023684250000071
其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
6)定义一个奖励函数
Figure BDA0002023684250000072
将减小接触力和优化装配时间作为优化机器人多轴孔装配任务中优化的目标,其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务能够完成,此时的奖励值是一个正向奖励rlarge,最终奖励值rt被限制在[-1,1]之间;
7)利用贝尔曼方程,将上述步骤5)中的策略值函数Qμ(st,atQ)改写为:
Figure BDA0002023684250000073
其中,μ(st+1)即为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用步骤5)的策略值函数Qμ(st,atQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,atQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
利用公式
Figure BDA0002023684250000081
求解损失函数L(θQ)对网络参数θQ的梯度
Figure BDA0002023684250000082
利用公式
Figure BDA0002023684250000083
更新深度强化学习网络中评估网络的网络参数θQ,其中η为根据训练的数据量和网络的复杂度选择的远远小于1的学习率;
9)利用上述步骤7)改写后的策略值函数值Qμ(st,atQ),采用链式求导方式,得到深度强化学习网络中动作网络输出的装配动作μ(s|θμ)))对网络参数θμ的策略梯度
Figure BDA0002023684250000084
Figure BDA0002023684250000085
策略梯度
Figure BDA0002023684250000086
利用公式
Figure BDA0002023684250000087
更新深度强化学习网络中的动作网络的网络参数θμ,其中η为与步骤4-4)相同的学习率;
10)根据清华大学的张贶恩等人在论文(Force control for a rigid dual peg-in-hole assembly)中提出的基于力的阻抗控制算法,将控制算法中需要的控制参数
Figure BDA0002023684250000088
Figure BDA0002023684250000089
Figure BDA00020236842500000810
作为输出量,将步骤1)-3)之间学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,根据已有的装配经验中关于上述输入输出的经验表达成形式如If-Then的逻辑规则,利用Matlab中的模糊逻辑工具箱将制定的逻辑规则设计一个模糊逻辑系统。
11)在t时刻,将当前获得的实时力传感器的值
Figure BDA00020236842500000811
根据设定的参考力和力矩
Figure BDA00020236842500000812
首先计算实时力与参考值之间的偏差
Figure BDA00020236842500000813
Figure BDA00020236842500000814
然后根据当前获得双轴零件受到的接触力和力矩信息根据步骤1)-3)计算环境预测信息,然后利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
Figure BDA00020236842500000815
计算出用于控制机器人轴孔装配过程中的六个基本动作
Figure BDA00020236842500000816
12)将实时采集到的力传感器的数据
Figure BDA00020236842500000817
和位置位姿信息
Figure BDA00020236842500000818
输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[-1,1]之间的修正值
Figure BDA00020236842500000819
13)利用输出的修正值和步骤11)得到的六个基本动作值,根据下式计算:
Figure BDA00020236842500000820
Figure BDA0002023684250000091
得到t时刻控制机器人轴孔装配运动的最终动作值
Figure BDA0002023684250000092
14)机器人执行步骤13)中求得的最终动作值
Figure BDA0002023684250000093
轴和孔的接触状态会发生相应的变化,并且从环境中得到新的接触力和力矩,新的位置和位姿并且根据步骤6)需要计算获得的奖励函数值rt
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1t+1t+1t+1,作为t+1时刻的轴的状态st+1,将上述数据st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度强化学习中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时轴在孔中的完成插入深度hT小于要求插入深度hmax,增加训练次数1000次,或者将学习率减小为原来的0.9倍,重复上述步骤4)-15)的训练过程;若在完成时刻T轴在孔中的完成插入深度hT等于要求插入深度hmax,则结束训练,得到最终训练完毕的深度强化学习网络并用于实际多轴孔装配过程中输出装配动作,将产生的装配动作生成用于控制机器人的控制指令,完成多轴孔装配任务。

Claims (1)

1.一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)将六维力传感器安装在机器人的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z′轴的正向沿双孔的轴线方向向上,X′轴正向与X轴的正向相同,根据右手螺旋定则Y'与Y轴正向相反;
其特征在于,该方法还包括以下步骤:
2)利用机器人控制器读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π,将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t的环境的反馈值ct,γ用来表示每次装配结束的状态,将对环境的相关预测表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
Figure FDA0002512940030000011
其中,α代表的是每一次的学习步长,δt代表时间差分算法计中t时刻的误差;
4)创建初始为空的经验数据集,设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据;
5)在连续动作控制的深度确定性梯度算法DDPG算法中,利用策略值函数Qμ(st,atQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,atQ);
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,ztttt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αttt代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,
Figure FDA0002512940030000021
其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
6)定义一个奖励函数
Figure FDA0002512940030000022
其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务完成,此时的奖励值是一个正向奖励rlarge
7)利用贝尔曼方程,将策略值函数Qμ(st,atQ)改写为:
Figure FDA0002512940030000023
其中,μ(st+1)为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用策略值函数Qμ(st,atQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,atQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
利用公式
Figure FDA0002512940030000024
求解损失函数L(θQ)对网络参数θQ的梯度
Figure FDA0002512940030000025
利用公式
Figure FDA0002512940030000031
更新深度强化学习网络中评估网络的网络参数θQ,其中η为学习率;
9)利用步骤7)改写后的策略值函数值Qμ(st,atQ),采用链式求导方式,得到深度强化学习网络中动作网络输出的装配动作μ(s|θμ)))对网络参数θμ的策略梯度
Figure FDA0002512940030000032
Figure FDA0002512940030000033
利用公式
Figure FDA0002512940030000034
更新深度强化学习网络中的动作网络的网络参数θμ
10)根据基于力的阻抗控制算法,将控制参数
Figure FDA0002512940030000035
Figure FDA0002512940030000036
作为输出量,将步骤1)-3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,形成对应的逻辑规则,然后根据形成的逻辑规则设计一个模糊逻辑系统;
11)在t时刻,将当前获得的实时力传感器的值
Figure FDA0002512940030000037
根据设定的参考力和力矩
Figure FDA0002512940030000038
首先计算实时力与参考值之间的偏差
Figure FDA0002512940030000039
Figure FDA00025129400300000310
然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)-3)计算环境预测信息,利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
Figure FDA00025129400300000311
计算用于控制机器人轴孔装配过程中的六个基本动作
Figure FDA00025129400300000312
12)将实时采集到的力传感器的数据
Figure FDA00025129400300000313
和位置位姿信息
Figure FDA00025129400300000314
输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[-1,1]之间的修正值
Figure FDA00025129400300000315
13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值,根据下式计算:
Figure FDA00025129400300000316
得到t时刻控制机器人轴孔装配运动的最终动作值
Figure FDA00025129400300000317
14)机器人执行步骤13)中求得的最终动作值
Figure FDA00025129400300000318
根据步骤6)计算获得的奖励函数值rt
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1t+1t+1t+1,作为t+1时刻的轴的状态st+1,将st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时hT小于hmax,则增加训练次数1000次或者将学习率减小为原来的0.9倍,然后重复上述步骤11)-15)的训练过程;若在完成时刻T时hT等于hmax,则结束训练,得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。
CN201910287227.1A 2019-04-11 2019-04-11 一种利用环境预测优化非模型机器人多轴孔装配控制方法 Active CN110238839B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910287227.1A CN110238839B (zh) 2019-04-11 2019-04-11 一种利用环境预测优化非模型机器人多轴孔装配控制方法
PCT/CN2020/080017 WO2020207219A1 (zh) 2019-04-11 2020-03-18 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910287227.1A CN110238839B (zh) 2019-04-11 2019-04-11 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Publications (2)

Publication Number Publication Date
CN110238839A CN110238839A (zh) 2019-09-17
CN110238839B true CN110238839B (zh) 2020-10-20

Family

ID=67883075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910287227.1A Active CN110238839B (zh) 2019-04-11 2019-04-11 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Country Status (2)

Country Link
CN (1) CN110238839B (zh)
WO (1) WO2020207219A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110238839B (zh) * 2019-04-11 2020-10-20 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110666793B (zh) * 2019-09-11 2020-11-03 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN111126605B (zh) * 2020-02-13 2023-06-20 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111618864B (zh) * 2020-07-20 2021-04-23 中国科学院自动化研究所 基于自适应神经网络的机器人模型预测控制方法
CN112192614A (zh) * 2020-10-09 2021-01-08 西南科技大学 一种基于人机合作的核运维机器人轴孔装配方法
CN112264995B (zh) * 2020-10-16 2021-11-16 清华大学 一种基于层级强化学习的机器人双轴孔装配方法
CN113878588B (zh) * 2021-11-12 2023-03-31 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法
CN114571456B (zh) * 2022-03-14 2024-03-15 山东大学 基于机器人技能学习的电连接器装配方法及系统
CN114918651B (zh) * 2022-06-23 2023-08-08 清华大学 一种任务条件自适应机器人轴孔装配方法及装置
CN115338610B (zh) * 2022-07-04 2024-02-13 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN114986518B (zh) * 2022-07-19 2022-11-04 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN116619007B (zh) * 2023-07-24 2023-10-20 季华实验室 一种基于前馈虚拟控制力的插孔方法及其相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101041220A (zh) * 2006-03-22 2007-09-26 中国科学院自动化研究所 利用低精度机器人实现高精度轴孔装配的方法
CN102128589A (zh) * 2010-01-20 2011-07-20 中国科学院自动化研究所 一种在轴孔装配中零件内孔方位误差的校正方法
CN105729469A (zh) * 2016-02-17 2016-07-06 中国科学院自动化研究所 一种基于环境吸引域的轴孔装配方法及系统
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN108196447A (zh) * 2017-12-25 2018-06-22 清华大学 一种利用基于学习遗传进化算法的机器人双轴孔装配方法
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017156243A1 (en) * 2016-03-11 2017-09-14 Siemens Aktiengesellschaft Deep-learning based feature mining for 2.5d sensing image search
CN106112505B (zh) * 2016-07-04 2018-07-24 清华大学 双轴孔装配系统及其控制方法
CN109543823B (zh) * 2018-11-30 2020-09-25 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN110238839B (zh) * 2019-04-11 2020-10-20 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101041220A (zh) * 2006-03-22 2007-09-26 中国科学院自动化研究所 利用低精度机器人实现高精度轴孔装配的方法
CN102128589A (zh) * 2010-01-20 2011-07-20 中国科学院自动化研究所 一种在轴孔装配中零件内孔方位误差的校正方法
CN105729469A (zh) * 2016-02-17 2016-07-06 中国科学院自动化研究所 一种基于环境吸引域的轴孔装配方法及系统
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN108196447A (zh) * 2017-12-25 2018-06-22 清华大学 一种利用基于学习遗传进化算法的机器人双轴孔装配方法
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法

Also Published As

Publication number Publication date
CN110238839A (zh) 2019-09-17
WO2020207219A1 (zh) 2020-10-15

Similar Documents

Publication Publication Date Title
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN108161934B (zh) 一种利用深度强化学习实现机器人多轴孔装配的方法
CN109901403A (zh) 一种自主水下机器人神经网络s面控制方法
CN105772917B (zh) 一种三关节点焊机器人轨迹跟踪控制方法
CN110936382B (zh) 一种数据驱动的工业机器人能耗优化方法
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN113510704A (zh) 一种基于强化学习算法的工业机械臂运动规划方法
CN112140101A (zh) 轨迹规划方法、装置及系统
CN111702767A (zh) 一种基于反演模糊自适应的机械手阻抗控制方法
CN114169230A (zh) 一种机器人动力学参数的辨识方法
Dong et al. Friction modeling and compensation for haptic master manipulator based on deep Gaussian process
CN117103282A (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
Hasan et al. Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities
CN107894709A (zh) 基于自适应评价网络冗余机器人视觉伺服控制
CN116604532A (zh) 一种上肢康复机器人智能控制方法
CN116587275A (zh) 基于深度强化学习的机械臂智能阻抗控制方法及系统
Li et al. Digital twin enhanced assembly based on deep reinforcement learning
CN114012733A (zh) 一种用于pc构件模具划线的机械臂控制方法
CN115344047A (zh) 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法
Khadivar et al. Adaptive fingers coordination for robust grasp and in-hand manipulation under disturbances and unknown dynamics
CN109711527B (zh) 一种基于粒子群优化算法的机器人操纵方法
CN113296398A (zh) 一种柔性单链机械臂基于事件触发的命令滤波控制方法
Zhou et al. Intelligent Control of Manipulator Based on Deep Reinforcement Learning
Wang et al. Adaptive control for industrial welding robot with muti-degree of freedom using the improved neural network PID

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant