CN110238839B - 一种利用环境预测优化非模型机器人多轴孔装配控制方法 - Google Patents
一种利用环境预测优化非模型机器人多轴孔装配控制方法 Download PDFInfo
- Publication number
- CN110238839B CN110238839B CN201910287227.1A CN201910287227A CN110238839B CN 110238839 B CN110238839 B CN 110238839B CN 201910287227 A CN201910287227 A CN 201910287227A CN 110238839 B CN110238839 B CN 110238839B
- Authority
- CN
- China
- Prior art keywords
- shaft
- assembly
- double
- network
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000009471 action Effects 0.000 claims abstract description 48
- 230000002787 reinforcement Effects 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 24
- 238000003780 insertion Methods 0.000 claims description 16
- 230000037431 insertion Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 3
- 239000012636 effector Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B23—MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
- B23P—METAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
- B23P19/00—Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
Abstract
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,属于机器人装配技术领域。本发明利用通用动作值函数进行环境相关知识预测,并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入,输出用于优化非模型控制算法的参数,当深度强化学习网络迭代次数上限且装配符合要求时,输出训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。本发明可实现对已有非模型机器人控制算法的优化,缩短了机器人多轴孔装配所需的时间。
Description
技术领域
本发明涉及一种利用环境预测优化非模型机器人多轴孔装配控制方法,属于机器人装配技术领域。
背景技术
随着机器人被广泛的应用在工业中,机器人自动化装配技术具有巨大的市场应用前景,目前深度强化学习网络已被广泛的用来解决实际机器人复杂控制的应用场景中,基于深度强化学习网络使得机器人不需要对装配过程中的接触状态进行建模分析而是像人一样直接从环境中通过尝试学习出装配的技能。
针对目前工业中利用非模型学习算法来进行多轴孔装配任务,最先使用的是清华大学侯志民在其专利“一种利用深度强化学习实现机器人多轴孔装配的方法”中提出的基于确定性策略梯度搜索算法实现对机器人的装配动作进行控制,并利用传统模糊力控制方法产生经验训练数据,通过专家数据的训练能够保证强化学习模型快速学习,并且达到传统模糊力控制的水平。该方法还利用深度确定策略梯度搜索的方法继续进行训练,通过不断的与环境的交互逐渐优化装配决策的能力。尽管该非模型控制算法得到了快速发展并且越来越多的应用在实际工业中,但是其效果取决于需要大量的样本进行尝试,真实应用场景无法用来进行大量的尝试,这是限制这种非模型控制算法在真实环境中应用的主要挑战。
发明内容
本发明的目的是为克服已有的非模型控制技术在实际应用中使用的不足之处,提出一种利用环境预测优化非模型机器人多轴孔装配控制方法。本发明利用通用动作值函数从环境学习相关预测,并且通过设计模糊逻辑系统将学习到的预测作为输入,输出用于优化非模型强化学习控制算法的参数,从而实现对已有基于非模型强化控制的机器人装配方法进行优化,可缩短机器人多轴孔装配过程中搜索阶段的时间,提高生产中装配的效率。
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)将六维力传感器安装在机器人的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z'轴的正向沿双孔的轴线方向向上,X'轴正向与X轴的正向相同,根据右手螺旋定则Y'与Y轴正向相反;
2)利用机器人控制器读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π,将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t的环境的反馈值ct,γ用来表示每次装配结束的状态,将对环境的相关预测表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
其中,α代表的是每一次的学习步长,δt代表时间差分算法计中t时刻的误差;
4)创建初始为空的经验数据集,设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据;
5)在连续动作控制的深度确定性梯度算法DDPG算法中,利用策略值函数Qμ(st,at|θQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,at|θQ);
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,zt,αt,βt,γt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αt,βt,γt代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务完成,此时的奖励值是一个正向奖励rlarge;
7)利用贝尔曼方程,将策略值函数Qμ(st,at|θQ)改写为:
其中,μ(st+1)为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用策略值函数Qμ(st,at|θQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,at|θQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
10)根据基于力的阻抗控制算法,将控制参数和 作为输出量,将步骤1)-3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,形成对应的逻辑规则,然后根据形成的逻辑规则设计一个模糊逻辑系统;
11)在t时刻,将当前获得的实时力传感器的值根据设定的参考力和力矩首先计算实时力与参考值之间的偏差 然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)-3)计算环境预测信息,利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值,根据下式计算:
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1,αt+1,βt+1,γt+1,作为t+1时刻的轴的状态st+1,将st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时hT小于hmax,则增加训练次数1000次或者将学习率减小为原来的0.9倍,然后重复上述步骤11)-15)的训练过程;若在完成时刻T时hT等于hmax,则结束训练,得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。
本发明的特点及有益效果在于:
1、本发明方法是基于对环境已有的先验知识,通过学习关于环境的预测信息,来优化非模型的强化学习控制算法,从而提高已有的非模型强化学习控制算法的学习效率。
2、本发明利用通用动作值函数进行环境相关知识预测,并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入,输出用于优化非模型控制算法的参数,从而实现对已有非模型机器人控制算法进行优化,用来缩短了机器人多轴孔装配所需的时间。
附图说明
图1是本发明实施例中双轴孔装配实验平台结构示意图。
具体实施方式
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,下面结合附图和具体实施例进一步说明如下。
本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)建立一个双轴孔装配实验平台,双轴孔装配实验平台结构如图1所示,图1中,1是待装配的双轴零件,2是待装配的双孔零件。将任意可以采集六维力的传感器(本发明中使用的是ABB的六维力传感器)安装到机器人(本发明可采用常规型号的机器人,本实施例采用的是)ABB IRB 1200)的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,如图1所示Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z'轴的正向沿双孔的轴线方向向上,X'轴正向与X轴的正向相同,根据右手螺旋定则其Y'与Y轴正向相反。
2)利用机器人控制器从上位机读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π(π是根据当前双轴零件的轴的位姿信息和接触力大小决定机器人要采取装配动作中的三个平移动作和三个旋转动作),将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t要预测的环境的反馈值ct,γ用来表示每次装配结束的状态。根据以上参数就可以将对环境的相关预测就可以表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法(出自Richard Sutton的书Reinforcement learning:AnIntroduction)利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
其中,α代表的是每一次的学习步长,δt代表时间差分算法计算的t时刻的误差。
4)创建初始为空的经验数据集,设定经验数据集的容量为M(取值大于0),当经验数据集中经验样本数据添加满后采取先进先出的原则删除最先添加的经验样本数据。
5)在连续动作控制的深度确定性梯度算法(DDPG)算法中,利用策略值函数Qμ(st,at|θQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,at|θQ)
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,zt,αt,βt,γt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αt,βt,γt代表t时刻从机器人控制器得到的待装配双轴零件双轴的位姿状态即分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
将减小接触力和优化装配时间作为优化机器人多轴孔装配任务中优化的目标,其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务能够完成,此时的奖励值是一个正向奖励rlarge,最终奖励值rt被限制在[-1,1]之间;
7)利用贝尔曼方程,将上述步骤5)中的策略值函数Qμ(st,at|θQ)改写为:
其中,μ(st+1)即为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用步骤5)的策略值函数Qμ(st,at|θQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,at|θQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
10)根据清华大学的张贶恩等人在论文(Force control for a rigid dual peg-in-hole assembly)中提出的基于力的阻抗控制算法,将控制算法中需要的控制参数 和作为输出量,将步骤1)-3)之间学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,根据已有的装配经验中关于上述输入输出的经验表达成形式如If-Then的逻辑规则,利用Matlab中的模糊逻辑工具箱将制定的逻辑规则设计一个模糊逻辑系统。
11)在t时刻,将当前获得的实时力传感器的值根据设定的参考力和力矩首先计算实时力与参考值之间的偏差 然后根据当前获得双轴零件受到的接触力和力矩信息根据步骤1)-3)计算环境预测信息,然后利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
13)利用输出的修正值和步骤11)得到的六个基本动作值,根据下式计算:
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1,αt+1,βt+1,γt+1,作为t+1时刻的轴的状态st+1,将上述数据st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度强化学习中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时轴在孔中的完成插入深度hT小于要求插入深度hmax,增加训练次数1000次,或者将学习率减小为原来的0.9倍,重复上述步骤4)-15)的训练过程;若在完成时刻T轴在孔中的完成插入深度hT等于要求插入深度hmax,则结束训练,得到最终训练完毕的深度强化学习网络并用于实际多轴孔装配过程中输出装配动作,将产生的装配动作生成用于控制机器人的控制指令,完成多轴孔装配任务。
Claims (1)
1.一种利用环境预测优化非模型机器人多轴孔装配控制方法,包括以下步骤:
1)将六维力传感器安装在机器人的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X-Y-Z,轴三维坐标系X-Y-Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'-Y'-Z',孔坐标系X'-Y'-Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z′轴的正向沿双孔的轴线方向向上,X′轴正向与X轴的正向相同,根据右手螺旋定则Y'与Y轴正向相反;
其特征在于,该方法还包括以下步骤:
2)利用机器人控制器读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π,将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t的环境的反馈值ct,γ用来表示每次装配结束的状态,将对环境的相关预测表示为:
Q(ot,π,ct,γ)
3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:
δt=ct+γ·Q(ot+1|wt+1,π,γ)-Q(ot|wt,π,γ)
其中,α代表的是每一次的学习步长,δt代表时间差分算法计中t时刻的误差;
4)创建初始为空的经验数据集,设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据;
5)在连续动作控制的深度确定性梯度算法DDPG算法中,利用策略值函数Qμ(st,at|θQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,at|θQ);
其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,zt,αt,βt,γt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αt,βt,γt代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;
其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值-rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务完成,此时的奖励值是一个正向奖励rlarge;
7)利用贝尔曼方程,将策略值函数Qμ(st,at|θQ)改写为:
其中,μ(st+1)为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;
8)利用策略值函数Qμ(st,at|θQ),定义一个损失函数:
L(θQ)=E[(Qμ(st,at|θQ)-Nt)2],
其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;
10)根据基于力的阻抗控制算法,将控制参数和作为输出量,将步骤1)-3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,形成对应的逻辑规则,然后根据形成的逻辑规则设计一个模糊逻辑系统;
11)在t时刻,将当前获得的实时力传感器的值根据设定的参考力和力矩首先计算实时力与参考值之间的偏差 然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)-3)计算环境预测信息,利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:
13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值,根据下式计算:
计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1,αt+1,βt+1,γt+1,作为t+1时刻的轴的状态st+1,将st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,
15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;
16)重复上述步骤11)-步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时hT小于hmax,则增加训练次数1000次或者将学习率减小为原来的0.9倍,然后重复上述步骤11)-15)的训练过程;若在完成时刻T时hT等于hmax,则结束训练,得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910287227.1A CN110238839B (zh) | 2019-04-11 | 2019-04-11 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
PCT/CN2020/080017 WO2020207219A1 (zh) | 2019-04-11 | 2020-03-18 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910287227.1A CN110238839B (zh) | 2019-04-11 | 2019-04-11 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110238839A CN110238839A (zh) | 2019-09-17 |
CN110238839B true CN110238839B (zh) | 2020-10-20 |
Family
ID=67883075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910287227.1A Active CN110238839B (zh) | 2019-04-11 | 2019-04-11 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110238839B (zh) |
WO (1) | WO2020207219A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110238839B (zh) * | 2019-04-11 | 2020-10-20 | 清华大学 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
CN110666793B (zh) * | 2019-09-11 | 2020-11-03 | 大连理工大学 | 基于深度强化学习实现机器人方形零件装配的方法 |
CN111126605B (zh) * | 2020-02-13 | 2023-06-20 | 创新奇智(重庆)科技有限公司 | 一种基于强化学习算法的数据中心机房控制方法及装置 |
CN111618864B (zh) * | 2020-07-20 | 2021-04-23 | 中国科学院自动化研究所 | 基于自适应神经网络的机器人模型预测控制方法 |
CN112192614A (zh) * | 2020-10-09 | 2021-01-08 | 西南科技大学 | 一种基于人机合作的核运维机器人轴孔装配方法 |
CN112264995B (zh) * | 2020-10-16 | 2021-11-16 | 清华大学 | 一种基于层级强化学习的机器人双轴孔装配方法 |
CN113878588B (zh) * | 2021-11-12 | 2023-03-31 | 哈尔滨工业大学(深圳) | 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法 |
CN114571456B (zh) * | 2022-03-14 | 2024-03-15 | 山东大学 | 基于机器人技能学习的电连接器装配方法及系统 |
CN114918651B (zh) * | 2022-06-23 | 2023-08-08 | 清华大学 | 一种任务条件自适应机器人轴孔装配方法及装置 |
CN115338610B (zh) * | 2022-07-04 | 2024-02-13 | 中国科学院自动化研究所 | 双轴孔装配方法、装置、电子设备和存储介质 |
CN114986518B (zh) * | 2022-07-19 | 2022-11-04 | 聊城一明五金科技有限公司 | 用于汽车拆解生产线的智能控制方法及系统 |
CN116619007B (zh) * | 2023-07-24 | 2023-10-20 | 季华实验室 | 一种基于前馈虚拟控制力的插孔方法及其相关设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101041220A (zh) * | 2006-03-22 | 2007-09-26 | 中国科学院自动化研究所 | 利用低精度机器人实现高精度轴孔装配的方法 |
CN102128589A (zh) * | 2010-01-20 | 2011-07-20 | 中国科学院自动化研究所 | 一种在轴孔装配中零件内孔方位误差的校正方法 |
CN105729469A (zh) * | 2016-02-17 | 2016-07-06 | 中国科学院自动化研究所 | 一种基于环境吸引域的轴孔装配方法及系统 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108161934A (zh) * | 2017-12-25 | 2018-06-15 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
CN108196447A (zh) * | 2017-12-25 | 2018-06-22 | 清华大学 | 一种利用基于学习遗传进化算法的机器人双轴孔装配方法 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN108693851A (zh) * | 2017-03-31 | 2018-10-23 | 发那科株式会社 | 行为信息学习装置、机器人控制系统及行为信息学习方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017156243A1 (en) * | 2016-03-11 | 2017-09-14 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
CN106112505B (zh) * | 2016-07-04 | 2018-07-24 | 清华大学 | 双轴孔装配系统及其控制方法 |
CN109543823B (zh) * | 2018-11-30 | 2020-09-25 | 山东大学 | 一种基于多模信息描述的柔性装配系统及方法 |
CN110238839B (zh) * | 2019-04-11 | 2020-10-20 | 清华大学 | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 |
-
2019
- 2019-04-11 CN CN201910287227.1A patent/CN110238839B/zh active Active
-
2020
- 2020-03-18 WO PCT/CN2020/080017 patent/WO2020207219A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101041220A (zh) * | 2006-03-22 | 2007-09-26 | 中国科学院自动化研究所 | 利用低精度机器人实现高精度轴孔装配的方法 |
CN102128589A (zh) * | 2010-01-20 | 2011-07-20 | 中国科学院自动化研究所 | 一种在轴孔装配中零件内孔方位误差的校正方法 |
CN105729469A (zh) * | 2016-02-17 | 2016-07-06 | 中国科学院自动化研究所 | 一种基于环境吸引域的轴孔装配方法及系统 |
CN108693851A (zh) * | 2017-03-31 | 2018-10-23 | 发那科株式会社 | 行为信息学习装置、机器人控制系统及行为信息学习方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108161934A (zh) * | 2017-12-25 | 2018-06-15 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
CN108196447A (zh) * | 2017-12-25 | 2018-06-22 | 清华大学 | 一种利用基于学习遗传进化算法的机器人双轴孔装配方法 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110238839A (zh) | 2019-09-17 |
WO2020207219A1 (zh) | 2020-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110238839B (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN108161934B (zh) | 一种利用深度强化学习实现机器人多轴孔装配的方法 | |
CN109901403A (zh) | 一种自主水下机器人神经网络s面控制方法 | |
CN105772917B (zh) | 一种三关节点焊机器人轨迹跟踪控制方法 | |
CN110936382B (zh) | 一种数据驱动的工业机器人能耗优化方法 | |
CN116460860B (zh) | 一种基于模型的机器人离线强化学习控制方法 | |
CN113510704A (zh) | 一种基于强化学习算法的工业机械臂运动规划方法 | |
CN112140101A (zh) | 轨迹规划方法、装置及系统 | |
CN111702767A (zh) | 一种基于反演模糊自适应的机械手阻抗控制方法 | |
CN114169230A (zh) | 一种机器人动力学参数的辨识方法 | |
Dong et al. | Friction modeling and compensation for haptic master manipulator based on deep Gaussian process | |
CN117103282A (zh) | 一种基于matd3算法的双臂机器人协同运动控制方法 | |
Hasan et al. | Neural networks’ based inverse kinematics solution for serial robot manipulators passing through singularities | |
CN107894709A (zh) | 基于自适应评价网络冗余机器人视觉伺服控制 | |
CN116604532A (zh) | 一种上肢康复机器人智能控制方法 | |
CN116587275A (zh) | 基于深度强化学习的机械臂智能阻抗控制方法及系统 | |
Li et al. | Digital twin enhanced assembly based on deep reinforcement learning | |
CN114012733A (zh) | 一种用于pc构件模具划线的机械臂控制方法 | |
CN115344047A (zh) | 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法 | |
Khadivar et al. | Adaptive fingers coordination for robust grasp and in-hand manipulation under disturbances and unknown dynamics | |
CN109711527B (zh) | 一种基于粒子群优化算法的机器人操纵方法 | |
CN113296398A (zh) | 一种柔性单链机械臂基于事件触发的命令滤波控制方法 | |
Zhou et al. | Intelligent Control of Manipulator Based on Deep Reinforcement Learning | |
Wang et al. | Adaptive control for industrial welding robot with muti-degree of freedom using the improved neural network PID |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |