CN109543823B - 一种基于多模信息描述的柔性装配系统及方法 - Google Patents

一种基于多模信息描述的柔性装配系统及方法 Download PDF

Info

Publication number
CN109543823B
CN109543823B CN201811454906.5A CN201811454906A CN109543823B CN 109543823 B CN109543823 B CN 109543823B CN 201811454906 A CN201811454906 A CN 201811454906A CN 109543823 B CN109543823 B CN 109543823B
Authority
CN
China
Prior art keywords
mechanical arm
assembly
network
state
assembling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811454906.5A
Other languages
English (en)
Other versions
CN109543823A (zh
Inventor
宋锐
李凤鸣
李贻斌
邹永显
权威
张思思
魏猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811454906.5A priority Critical patent/CN109543823B/zh
Publication of CN109543823A publication Critical patent/CN109543823A/zh
Application granted granted Critical
Publication of CN109543823B publication Critical patent/CN109543823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P19/00Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P21/00Machines for assembling a multiplicity of different parts to compose units, with or without preceding or subsequent working of such parts, e.g. with programme control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于多模信息描述的柔性装配系统及方法,包括:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配。本公开的实施例子有效解决人工效率不高等问题;机械臂主动适应环境的变化;采用视觉图像、力/力矩信息和机械臂参数等多模信息完整描述装配过程。

Description

一种基于多模信息描述的柔性装配系统及方法
技术领域
本公开涉及机器装配技术领域,特别是涉及一种基于多模信息描述的柔性装配系统及方法。
背景技术
在工业生产的复杂作业过程中,装配工艺是比较复杂的,人的视觉、触觉等感觉通过大脑智慧的引导,在装配过程中得到了充分发挥。在机器人装配过程中,单一的图像模态信息不能完全表达装配作业的动态过程,且当装配对象相互接触时,出现目标遮挡问题。
针对单一模态信息对装配过程表达能力不足的问题,亟需结合视觉、力觉以及机械臂自身的参数信息构建一套智能柔性装配系统。
发明内容
为了解决现有技术的不足,本公开的实施例子提供了一种基于多模信息描述的柔性装配系统,能够实现视觉引导粗定位和力觉调姿精装配。
为了实现上述目的,本申请采用以下技术方案:
一种基于多模信息描述的柔性装配方法,包括:
在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;
当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉感知精装配。
进一步的技术方案,在机械臂末端零部件与待装配零部件未接触阶段,通过相机采集装配零部件的图像,进行图像特征提取并进行目标位姿解算,根据解算的位姿引导机械臂至装配零部件附近。
进一步的技术方案,根据机械臂末端夹具上的上力传感器信息判断机械臂末端零部件与待装配零部件是否接触。
进一步的技术方案,通过机械臂的关节传感器采集装配过程中的关节角度及角速度,并根据机械臂正运动学解算出末端执行器位姿,以及装配零部件接触时的力/力矩信息,构建包含关节角度及角速度、位姿、力/力矩信息的装配状态矩阵。
进一步的技术方案,将装配状态矩阵输入到已经训练好的深度强化学习模型进行姿态调整,其中,建立深度强化学习模型,包括:
构建基于深度强化学习的网络模型,策略网络和Q值网络结构均采用三层全连接网络,激活函数设为sigmoid函数;
建立装配质量评价回报函数;
训练建立好的网络模型,在训练建立好的网络模型时,基于装配质量评价回报函数,采用反向传播算法求解当前策略网络的梯度,获得状态-动作Q值;
测试训练好的网络模型,根据当前装配状态进行机械臂动作调整,直至装配成功;
保存网络模型。
进一步的技术方案,所述装配质量评价回报函数
Figure BDA0001887505840000021
其中,fz为z轴受力,f0为阻尼阈值,l为装配深度,z0为初始位置距装配目标表面的距离,z表示z轴上的位移距离;
则T时间段内的累积回报为
Figure BDA0001887505840000022
γi-1表示折扣因子,st表示t时刻的状态,at表示t时刻机械臂将要执行的动作,rt(st,at)表示在t时刻机械臂得到的即时奖励。
进一步的技术方案,训练建立好的网络模型,训练流程:
(1)初始化网络参数,包括训练幕数Episodes、折扣率γ,学习率σ;
(2)建立数据缓存区D作为装配状态经验池,根据行为策略β,将动作的决策机制引入随机噪声,从确定性过程转变为随机噪声,再从随机过程中选择执行at,返回回报值r和新的状态st+1,存储状态转换的过程{st,at,rt,st+1}至经验池中;
(3)从经验池中随机采样作为当前策略网络的训练样本四元组{si,ai,ri,si+1};
(4)采用反向传播算法求解当前策略网络的梯度,状态-动作Q值为:
Qμ(st,at)=E[R(st,at)+γQμ(st+1,μ(st+1))]
其中,μ表示经过训练后得到的最优策略;γ是折扣因子,Qμ(st,at)表示t时刻在策略μ下机械臂选择执行动作at后的长期累积奖励,Qμ(st+1,μ(st+1)表示下一时刻即t+1的长期累积奖励。
设Q网络的损失函数为
Figure BDA0001887505840000031
其中,网络预测输出值yi=ri+γQ'(si+1,μ'(si+1μ')|θQ'),N表示经验池中四元组的数目,Q(si,aiQ)表示i状态下的状态-动作值网络,θQ表示Q值网络的参数;
(5)采用Adam优化器更新当前策略网络μ(s|θμ)的参数θμ
(6)采用蒙特卡罗方法计算策略网络的梯度;
Figure BDA0001887505840000032
(7)更新策略网络参数θμ
(8)目标网络参数更新方法;
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
θQ′μ′是迭代更新后的参数,τ通常取0.001。
进一步的技术方案,测试训练好的网络模型,包括:
(1)随机设定当前装配状态;
(2)获得当前状态参数矩阵S;
(3)输入到已训练好的网络模型,输出机械臂动作值;
(4)若装配成功则结束,若装配不成功,返回(2),继续根据当前装配状态进行机械臂动作调整。
进一步的技术方案,将装配状态矩阵输入到已经训练好的深度强化学习模型,机械臂的进行姿态动作调整,直至装配结束。
本公开实施例子还公开了一种基于多模信息描述的柔性装配系统,包括:
视觉引导粗定位单元,在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近;
力觉调姿精装配单元,当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的装配。
本公开实施例子还公开了一种机器人,包括机械臂,所述机械臂被配置为执行视觉引导粗定位步骤及力觉调姿精装配步骤;
其中,视觉引导粗定位步骤:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;
力觉调姿精装配步骤:当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配。
与现有技术相比,本公开的有益效果是:
本公开的实施例子模拟人的装配作业过程,结合视觉、力觉以及机械臂自身的参数信息构建一套智能柔性装配系统。
本公开的智能柔性装配系统包括视觉引导粗定位和力觉调姿精装配两个装配阶段,如图一所示。首先在装配零部件未接触阶段,通过视觉引导快速定位在目标位置附近,然后当装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,最终实现装配。
本公开的实施例子有效解决人工效率不高等问题;机械臂主动适应环境的变化;采用视觉图像、力/力矩信息和机械臂参数等多模信息完整描述装配过程。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开一个或一些实施例子的智能柔性装配系统图;
图2为本公开一个或一些实施例子的柔性装配系统流程图;
图3为本公开一个或一些实施例子的力觉调姿精装配算法流程图;
图4为本公开一个或一些实施例子的深度强化学习算法训练流程图;
图5为本公开一个或一些实施例子的行为策略β流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本申请的一种典型的实施方式中,如图1所示,提供了一种基于多模信息描述的柔性装配方法,包括视觉引导粗定位和力觉调姿精装配两个装配阶段,首先在装配零部件未接触阶段,通过视觉引导快速定位在目标位置附近,然后当装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,最终实现装配。
一种基于多模信息描述的柔性装配方法流程图如图2所示,具体步骤如下,包括:
步骤1、当机械臂末端零部件与待装配零部件未接触时,通过视觉引导快速使机械臂定位在装配零部件附近;
步骤2、到达装配零部件附近后,机械臂慢速向下移动;
步骤3、根据末端夹具上的力传感器信息判断装配零部件是否接触,若未接触,返回步骤2,若接触进入力觉调姿精装配阶段,如图3所示,其中机械臂的动作调整集合包括绕x,y,z轴方向的调整,分别通过关节和阻抗来实现。关节控制是通过机械臂的正逆运动学来实现的,阻抗控制是通过调节阻抗系数的大小来实现的;
步骤4、获取多模信息,通过机械臂的关节传感器采集装配过程中的关节角度及角速度,并根据机械臂正运动学解算出末端执行器位姿(x,y,z,αxyz),装配零部件接触时的力/力矩信息(Fx,Fy,Fzxyz),构建装配状态矩阵S,若采用七自由度机械臂,则装配状态矩阵26维,可表示为
Figure BDA0001887505840000051
步骤5、将装配状态矩阵输入到已经训练好的深度强化学习模型,机械臂的进行姿态动作调整;
步骤6、判断装配是否完成,未完成返回步骤4,完成则装配结束。
在具体实施例子中,步骤1中:
1-1机械臂通过相机采集装配目标的图像;
1-2目标图像特征提取并进行目标位姿解算;
1-3根据解算的位姿引导机械臂至目标装配零部件附近。
在具体实施例子中,步骤5中建立深度强化学习模型;
5-1构建基于深度强化学习的网络模型,策略网络和Q值网络结构均采用三层全连接网络,其中网络中的激活函数设为sigmoid函数,即f(x)=1/(1+ex);此激活函数为网络中最后隐层的输出;
5-2建立装配质量评价回报函数;
Figure BDA0001887505840000061
其中,fz为z轴受力,f0为阻尼阈值,l为装配深度,z0为初始位置距装配目标表面的距离,z表示z轴上的位移距离。
则T时间段内的累积回报为
Figure BDA0001887505840000062
该函数在状态-动作Q值函数中应用。
5-3训练建立好的网络模型,训练流程如图4所示;
评估系统即是评估网络;评估网络和决策网络中的优化器均用来调节优化当前网络参数,与目标网络中的参数无直接关系,目标网络的参数更新在当前网络参数更新的基础上实现,目标Q值网络的参数以预测输出形式给当前Q值网络;装配作业环境的参数是装配状态矩阵形式S,以7自由度为例即为26维矩阵。
(1)初始化网络参数,包括训练幕数Episodes、折扣率γ,学习率σ等;
(2)建立数据缓存区D作为装配状态经验池,根据行为策略β,见图5,将动作的决策机制引入随机噪声,从确定性过程转变为随机噪声,再从随机过程中选择执行at,返回回报值r和新的状态st+1,存储状态转换的过程{st,at,rt,st+1}至经验池中;
(3)从经验池中随机采样作为当前策略网络的训练样本四元组{si,ai,ri,si+1};
(4)采用反向传播算法求解当前策略网络的梯度,状态-动作Q值为:
Qμ(st,at)=E[R(st,at)+γQμ(st+1,μ(st+1))]
Qμ(st,at)表示t时刻在策略μ下机械臂选择执行动作at后的状态-动作值函数,μ表示经过训练后得到的最优策略,R(st,at)是累积回报函数,Qμ(st+1,μ(st+1)表示下一时刻即t+1的状态-动作值函数。
设Q网络的损失函数L为:
Figure BDA0001887505840000071
其中,网络预测输出值yi=ri+γQ'(si+1,μ'(si+1μ')|θQ'),N表示经验池中四元组的数目,Q(si,aiQ)表示i状态下的状态-动作值网络,θQ表示Q值网络的参数。
(5)采用Adam优化器更新当前策略网络μ(s|θμ)的参数θμ
(6)采用蒙特卡罗方法计算策略网络的梯度;
Figure BDA0001887505840000072
(7)更新策略网络参数θμ
(8)目标网络参数更新方法;
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
θQ′μ′是迭代更新后的参数,τ通常取0.001。
5-4测试训练好的网络模型;
(1)随机设定当前装配状态;
(2)获得当前状态参数矩阵S;
(3)输入到已训练好的网络模型,输出机械臂动作值;
(4)若装配成功则结束,若装配不成功,返回(2),继续根据当前装配状态进行机械臂动作调整。
5-5保存网络模型。
本公开实施例子还公开了一种基于多模信息描述的柔性装配系统,包括:
视觉引导粗定位单元,在机械臂与装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近;
力觉调姿精装配单元,当装配零部件与机械臂接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的装配。
本公开实施例子还公开了一种机器人,包括机械臂,所述机械臂被配置为执行视觉引导粗定位步骤及力觉调姿精装配步骤;
其中,视觉引导粗定位步骤:在机械臂与装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;
力觉调姿精装配步骤:当装配零部件与机械臂接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种基于多模信息描述的柔性装配方法,其特征是,包括:
S1:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;
S2:当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉感知精装配;
所述S2具体包括:
通过机械臂的关节传感器采集装配过程中的关节角度及角速度,并根据机械臂正运动学解算出末端执行器位姿,以及装配零部件接触时的力/力矩信息,构建包含关节角度及角速度、位姿、力/力矩信息的装配状态矩阵;
将装配状态矩阵输入到已经训练好的深度强化学习模型进行姿态调整,其中,建立深度强化学习模型,包括:
构建基于深度强化学习的网络模型,策略网络和Q值网络结构均采用三层全连接网络,激活函数设为sigmoid函数;
建立装配质量评价回报函数;
训练建立好的网络模型,在训练建立好的网络模型时,基于装配质量评价回报函数,采用反向传播算法求解当前策略网络的梯度,获得状态-动作Q值;
测试训练好的网络模型,根据当前装配状态进行机械臂动作调整,直至装配成功;
保存网络模型;
所述装配质量评价回报函数
Figure FDA0002550813130000011
其中,fz为z轴受力,f0为阻尼阈值,l为装配深度,z0为初始位置距装配目标表面的距离,z表示z轴上的位移距离;
则T时间段内的累积回报为
Figure FDA0002550813130000012
γi-1表示折扣因子,st表示t时刻的状态,at表示t时刻机械臂将要执行的动作,rt(st,at)表示在t时刻机械臂得到的即时奖励。
2.如权利要求1所述的一种基于多模信息描述的柔性装配方法,其特征是,在机械臂末端零部件与待装配零部件未接触阶段,通过相机采集装配零部件的图像,进行图像特征提取并进行目标位姿解算,根据解算的位姿引导机械臂至装配零部件附近。
3.如权利要求1所述的一种基于多模信息描述的柔性装配方法,其特征是,根据机械臂末端夹具上的上力传感器信息判断机械臂末端零部件与待装配零部件是否接触。
4.如权利要求1所述的一种基于多模信息描述的柔性装配方法,其特征是,训练建立好的网络模型,训练流程:
(1)初始化网络参数,包括训练幕数Episodes、折扣率γ,学习率σ;
(2)建立数据缓存区D作为装配状态经验池,根据行为策略β,将动作的决策机制引入随机噪声,从确定性过程转变为随机噪声,再从随机过程中选择执行at,返回回报值r和新的状态st+1,存储状态转换的过程{st,at,rt,st+1}至经验池中;
(3)从经验池中随机采样作为当前策略网络的训练样本四元组{si,ai,ri,si+1};
(4)采用反向传播算法求解当前策略网络的梯度,状态-动作Q值为:
Qμ(st,at)=E[R(st,at)+γQμ(st+1,μ(st+1))]
其中,μ表示经过训练后得到的最优策略;γ是折扣因子,Qμ(st,at)表示t时刻在策略μ下机械臂选择执行动作at后的长期累积奖励,Qμ(st+1,μ(st+1))表示下一时刻即t+1的长期累积奖励;
设Q网络的损失函数为
Figure FDA0002550813130000021
其中,网络预测输出值yi=ri+γQ'(si+1,μ'(si+1μ')|θQ'),N表示经验池中四元组的数目,Q(si,aiQ)表示i状态下的状态-动作值网络,θQ表示Q值网络的参数;
(5)采用Adam优化器更新当前策略网络μ(s|θμ)的参数θμ
(6)采用蒙特卡罗方法计算策略网络的梯度;
Figure FDA0002550813130000031
(7)更新策略网络参数θμ
(8)目标网络参数更新方法;
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
θQ′μ′是迭代更新后的参数,τ通常取0.001。
5.如权利要求1所述的一种基于多模信息描述的柔性装配方法,其特征是,测试训练好的网络模型,包括:
(1)随机设定当前装配状态;
(2)获得当前状态参数矩阵S;
(3)输入到已训练好的网络模型,输出机械臂动作值;
(4)若装配成功则结束,若装配不成功,返回(2),继续根据当前装配状态进行机械臂动作调整。
6.一种基于多模信息描述的柔性装配系统,其特征是,包括:
视觉引导粗定位单元,在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近;
力觉调姿精装配单元,当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的装配;
所述力觉调姿精装配单元具体包括:通过机械臂的关节传感器采集装配过程中的关节角度及角速度,并根据机械臂正运动学解算出末端执行器位姿,以及装配零部件接触时的力/力矩信息,构建包含关节角度及角速度、位姿、力/力矩信息的装配状态矩阵;
将装配状态矩阵输入到已经训练好的深度强化学习模型进行姿态调整,其中,建立深度强化学习模型,包括:
构建基于深度强化学习的网络模型,策略网络和Q值网络结构均采用三层全连接网络,激活函数设为sigmoid函数;
建立装配质量评价回报函数;
训练建立好的网络模型,在训练建立好的网络模型时,基于装配质量评价回报函数,采用反向传播算法求解当前策略网络的梯度,获得状态-动作Q值;
测试训练好的网络模型,根据当前装配状态进行机械臂动作调整,直至装配成功;
保存网络模型;
所述装配质量评价回报函数
Figure FDA0002550813130000041
其中,fz为z轴受力,f0为阻尼阈值,l为装配深度,z0为初始位置距装配目标表面的距离,z表示z轴上的位移距离;
则T时间段内的累积回报为
Figure FDA0002550813130000042
γi-1表示折扣因子,st表示t时刻的状态,at表示t时刻机械臂将要执行的动作,rt(st,at)表示在t时刻机械臂得到的即时奖励。
7.一种机器人,其特征是,包括机械臂,所述机械臂被配置为执行视觉引导粗定位步骤及力觉调姿精装配步骤;
其中,视觉引导粗定位步骤:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;
力觉调姿精装配步骤:当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配;
所述力觉调姿精装配步骤具体包括:通过机械臂的关节传感器采集装配过程中的关节角度及角速度,并根据机械臂正运动学解算出末端执行器位姿,以及装配零部件接触时的力/力矩信息,构建包含关节角度及角速度、位姿、力/力矩信息的装配状态矩阵;
将装配状态矩阵输入到已经训练好的深度强化学习模型进行姿态调整,其中,建立深度强化学习模型,包括:
构建基于深度强化学习的网络模型,策略网络和Q值网络结构均采用三层全连接网络,激活函数设为sigmoid函数;
建立装配质量评价回报函数;
训练建立好的网络模型,在训练建立好的网络模型时,基于装配质量评价回报函数,采用反向传播算法求解当前策略网络的梯度,获得状态-动作Q值;
测试训练好的网络模型,根据当前装配状态进行机械臂动作调整,直至装配成功;
保存网络模型;
所述装配质量评价回报函数
Figure FDA0002550813130000051
其中,fz为z轴受力,f0为阻尼阈值,l为装配深度,z0为初始位置距装配目标表面的距离,z表示z轴上的位移距离;
则T时间段内的累积回报为
Figure FDA0002550813130000052
γi-1表示折扣因子,st表示t时刻的状态,at表示t时刻机械臂将要执行的动作,rt(st,at)表示在t时刻机械臂得到的即时奖励。
CN201811454906.5A 2018-11-30 2018-11-30 一种基于多模信息描述的柔性装配系统及方法 Active CN109543823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811454906.5A CN109543823B (zh) 2018-11-30 2018-11-30 一种基于多模信息描述的柔性装配系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811454906.5A CN109543823B (zh) 2018-11-30 2018-11-30 一种基于多模信息描述的柔性装配系统及方法

Publications (2)

Publication Number Publication Date
CN109543823A CN109543823A (zh) 2019-03-29
CN109543823B true CN109543823B (zh) 2020-09-25

Family

ID=65851394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811454906.5A Active CN109543823B (zh) 2018-11-30 2018-11-30 一种基于多模信息描述的柔性装配系统及方法

Country Status (1)

Country Link
CN (1) CN109543823B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110238839B (zh) * 2019-04-11 2020-10-20 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110253577B (zh) * 2019-06-19 2021-04-06 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN110806197B (zh) * 2019-09-28 2022-04-19 上海翊视皓瞳信息科技有限公司 一种基于智能视觉设备的姿态检测系统
CN110909644A (zh) * 2019-11-14 2020-03-24 南京理工大学 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111633647B (zh) * 2020-05-26 2021-06-22 山东大学 一种基于深度强化学习的多模融合机器人缝制方法及系统
CN111633657B (zh) * 2020-06-12 2021-12-03 山东大学 一种基于装配状态认知的机器人柔性装配方法及系统
CN111881772B (zh) * 2020-07-06 2023-11-07 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN112060085B (zh) * 2020-08-24 2021-10-08 清华大学 一种基于视触多尺度定位的机器人操作位姿控制方法
CN112631128B (zh) * 2020-11-27 2023-04-14 广东省科学院智能制造研究所 一种多模异构信息融合的机器人装配技能学习方法及系统
CN112965372B (zh) * 2021-02-01 2022-04-01 中国科学院自动化研究所 基于强化学习的微零件精密装配方法、装置和系统
CN113093779B (zh) * 2021-03-25 2022-06-07 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113878588B (zh) * 2021-11-12 2023-03-31 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法
CN113954076B (zh) * 2021-11-12 2023-01-13 哈尔滨工业大学(深圳) 基于跨模态预测装配场景的机器人精密装配方法
CN113977583B (zh) * 2021-11-16 2023-05-09 山东大学 基于近端策略优化算法的机器人快速装配方法及系统
CN114523475B (zh) * 2022-03-01 2024-06-18 南京理工大学 一种机器人装配系统误差自动标定与补偿装置及方法
CN114722611B (zh) * 2022-04-15 2023-08-08 镇江西门子母线有限公司 一种密集型母线槽的装配参数自适应优化方法及系统
CN117161719B (zh) * 2023-11-03 2024-01-19 佛山科学技术学院 一种视触觉融合的预装配零件姿态识别方法及系统
CN117639724A (zh) * 2023-12-05 2024-03-01 航天科工通信技术研究院有限责任公司 一种基于cmos的微波输入输出匹配驱动电路

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103252702A (zh) * 2013-05-13 2013-08-21 北京航空航天大学 一种基于气动蓄能器的机器人配重方法
CN107256009A (zh) * 2017-06-30 2017-10-17 武汉理工大学 一种基于深度学习的产品数字模型智能装配系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106737673B (zh) * 2016-12-23 2019-06-18 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN108161934B (zh) * 2017-12-25 2020-06-09 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103252702A (zh) * 2013-05-13 2013-08-21 北京航空航天大学 一种基于气动蓄能器的机器人配重方法
CN107256009A (zh) * 2017-06-30 2017-10-17 武汉理工大学 一种基于深度学习的产品数字模型智能装配系统

Also Published As

Publication number Publication date
CN109543823A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543823B (zh) 一种基于多模信息描述的柔性装配系统及方法
JP6517762B2 (ja) 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN111881772B (zh) 基于深度强化学习的多机械臂协同装配方法和系统
JP6438450B2 (ja) レーザ加工ロボットの加工順序を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP2019529135A (ja) ロボット操作のための深層強化学習
CN109397285B (zh) 一种装配方法、装配装置及装配设备
CN110253577B (zh) 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN111633647B (zh) 一种基于深度强化学习的多模融合机器人缝制方法及系统
CN111618862B (zh) 一种先验知识引导下的机器人操作技能学习系统及方法
CN112631128B (zh) 一种多模异构信息融合的机器人装配技能学习方法及系统
CN112347900B (zh) 基于距离估计的单目视觉水下目标自动抓取方法
CN111444954A (zh) 一种基于多模态感知与学习的机器人自主装配方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN113341706B (zh) 基于深度强化学习的人机协作流水线系统
JP2005115654A (ja) 情報処理装置および方法、プログラム格納媒体、並びにプログラム
CN116587275A (zh) 基于深度强化学习的机械臂智能阻抗控制方法及系统
CN111158476B (zh) 一种虚拟键盘的按键识别方法、系统、设备及存储介质
US20220410380A1 (en) Learning robotic skills with imitation and reinforcement at scale
CN115990891A (zh) 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法
CN113954076B (zh) 基于跨模态预测装配场景的机器人精密装配方法
CN113268143B (zh) 一种基于强化学习的多模态人机交互方法
Kawaharazuka et al. Dynamic task control method of a flexible manipulator using a deep recurrent neural network
JP7446178B2 (ja) 行動制御装置、行動制御方法、およびプログラム
CN114571456A (zh) 基于机器人技能学习的电连接器装配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant