CN113043275A - 基于专家演示和强化学习的微零件装配方法 - Google Patents

基于专家演示和强化学习的微零件装配方法 Download PDF

Info

Publication number
CN113043275A
CN113043275A CN202110335254.9A CN202110335254A CN113043275A CN 113043275 A CN113043275 A CN 113043275A CN 202110335254 A CN202110335254 A CN 202110335254A CN 113043275 A CN113043275 A CN 113043275A
Authority
CN
China
Prior art keywords
micro
assembly
action
reinforcement learning
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110335254.9A
Other languages
English (en)
Other versions
CN113043275B (zh
Inventor
马燕芹
谢永华
周元伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Vocational University of Industry Technology NUIT
Original Assignee
Nanjing Vocational University of Industry Technology NUIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Vocational University of Industry Technology NUIT filed Critical Nanjing Vocational University of Industry Technology NUIT
Priority to CN202110335254.9A priority Critical patent/CN113043275B/zh
Publication of CN113043275A publication Critical patent/CN113043275A/zh
Application granted granted Critical
Publication of CN113043275B publication Critical patent/CN113043275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于精密装配智能控制领域,具体涉及了一种基于专家演示和强化学习的微零件装配方法,旨在解决现有的微零件装配技能学习效率低而且实用性不强的问题。本发明包括:采集微零件a和b的图像进行零件姿态和位置调整,使零件姿态一致,零件a处于零件b正上方;获取零件间的力信息并通过微零件装配模型控制零件装配。微零件装配模型训练包括:通过专家演示数据训练状态转移模型;进行专家演示数据的数据增强;设计模糊回报函数和混合探索方法,通过增强后的数据进行预训练;预训练的模型在模糊回报函数的引导下进行自学习,获得训练好的微零件装配模型。本发明操作方便、实用性强、执行效率高,并且保证了微零件装配的效率和安全性。

Description

基于专家演示和强化学习的微零件装配方法
技术领域
本发明属于精密装配智能控制领域,具体涉及了一种基于专家演示和强化学习的微零件装配方法。
背景技术
随着科技的快速发展,微机电系统(MEMS,Micro-Electro-Mechanical System)作为一项革命性的新技术,在电子、医学、物理和航天航空等领域得到越来越广泛的应用。而精密装配技术作为微机电系统装配的关键技术,成为近年来研究的热点。精密装配技术主要涵盖感知、测量和控制等方面,该技术的发展对于提高微机电系统的产品质量、降低产品生产周期具有非常重要的意义。尽管现有的精密装配系统能实现零件的自动装配,但是难以满足多品种小批量精密装配的应用需求。不同品种的零件结构千变万化,装配工艺千差万别。预先编写的装配程序不具有举一反三的能力,装配零件和工艺细节的差异都可能要求程序参数乃至架构的变动。开展机器人装配技能学习的研究,使机器人具备装配技能,能够大幅提高精密装配的智能性。另外,一旦机器人具备装配技能,则针对不同的装配任务不再需要预编程,这将极大的缩短开发周期。
目前精密装配系统常采用半自动装配的方式进行多品种零件的装配,相对于人工操作,在机器的辅助下半自动装配方式虽然能更好地保证装配精度,但效率偏低这一瓶颈问题限制了其大规模推广应用。因此,迫切需要赋予机器人精密装配技能学习能力,经过人工传授、自主优化改进等学习方式,让机器人学会不同零件的装配技能,满足小批量多品种自动装配的需求。
近几年,基于演示学习和强化学习的技能学习方法得到广泛关注。基于演示学习的技能学习效率高,但由于演示空间有限,且不能保证演示数据的质量,所以学习到的策略可能非全局最优的。特别是对于具有复杂接触动态的精密装配任务,基于有限次数演示学习很难获得最优装配策略[1]。基于强化学习学到的装配控制策略具有良好的性能。然而,当强化学习中的智能体直接在真实环境中进行探索学习时,大量的探索动作可能会损坏零件。而且过多的探索也会使训练成本增加。虽然通过将仿真中学习到的策略转移到真实环境可以提高学习效率,但是由于精密装配过程中接触动态比较复杂,很难保证从仿真环境中学习到的策略能够很好地应用到真实环境[2]。
以下文献是与本发明相关的技术背景资料:
[1]Ehlers D,Suomalainen M,Lundell J,and Kyrki V.Imitating humansearch strategies for assembly[C].IEEE International Conference on Roboticsand Automation.2019:7821-7827
[2]Nagele F,Halt L,Tenbrock P,and Pott A.A prototype-based skillmodel for specifying robotic assembly tasks[C].IEEE International Conferenceon Robotics and Automation,2018:558-565
发明内容
为了解决现有技术中的上述问题,即现有的微零件装配技能学习效率低而且实用性不强的问题,本发明提供了一种基于专家演示和强化学习的微零件装配方法,该方法包括:
步骤S10,采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
步骤S20,实时获取微零件a和微零件b之间的三维力信息;
步骤S30,通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配;
其中,所述微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络;
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练;
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
在一些优选的实施例中,所述专家演示数据,其获取方法为:
步骤B10,定义装配过程中专家每次控制所述第二执行机构平移一次的动作a=[dx,dy,dz]T以及装配系统状态信息s=[fx,fy,fz,pz]T
其中,dx,dy分别为沿第二执行机构XE,YE轴的调整量,dz>0为沿第二执行机构ZE轴负方向的装配步长,fx,fy,fz分别代表三维力信息中沿力传感器的XF,YF,ZF轴的接触力,pz为沿第二执行机构ZE轴的装配深度;
步骤B20,执行一次动作a,获取执行后的装配系统状态信息s以及动作执行后的回报r;
步骤B30,判断当前时刻s是否为装配结束状态,若不是,则跳转步骤B20;否则,结束装配过程;
步骤B40,将所述装配过程中获取的数据构建为数据组(si,ai,ri,si+1),获得专家演示数据;
其中,si代表当前动作ai执行前的装配系统状态信息,ri代表当前动作ai执行后获得的回报,si+1代表当前动作ai执行后的装配系统状态信息。
在一些优选的实施例中,所述状态转移模型,其训练方法为:
步骤C10,基于非线性微分方程构建状态转移模型:
Figure BDA0002997255340000041
其中,st+1为t时刻装配系统状态信息st在执行动作at后获得的t+1时刻装配系统状态信息,K为比例系数矩阵,
Figure BDA0002997255340000042
为表示状态转移中的不确定性的高斯函数,∑代表方差矩阵;
步骤C20,基于专家演示数据,通过最小二乘法进行比例系数矩阵K和方差矩阵∑的离线学习,获得训练好的状态转移模型。
在一些优选的实施例中,所述数据增强,其公式表示为:
Figure BDA0002997255340000043
其中,
Figure BDA0002997255340000044
构成数据增强后的训练数据,
Figure BDA0002997255340000045
Figure BDA0002997255340000046
分别代表数据增强的状态和动作的方差,
Figure BDA0002997255340000047
为限制增强后的动作幅值的限幅函数,r(·)为模糊回报函数。
在一些优选的实施例中,所述模糊回报函数为:
Figure BDA0002997255340000048
其中,c为一次微零件装配中从开始装配到装配完成过程中动作a执行的次数,cmax为设置的装配过程中动作的最大限制次数,Ri为第i个模糊回报规则,μi为第i个模糊回报规则的模糊隶属度,m为满足模糊回报规则的条件个数。
在一些优选的实施例中,所述混合探索方法包括参数空间探索方法和动作空间探索方法;
所述参数空间探索方法为:
Figure BDA0002997255340000051
其中,θπ是策略网络的原始参数,
Figure BDA0002997255340000052
为增加参数空间探索后的策略网络的参数,
Figure BDA0002997255340000053
表示高斯噪声函数,ρ为参数空间探索中高斯噪声的标准差,I为单位矩阵;
所述动作空间探索方法为:
Figure BDA0002997255340000054
其中,a为增加参数空间探索和动作空间探索后的动作,σ为动作空间探索中高斯噪声的标准差。
在一些优选的实施例中,所述参数空间探索中高斯噪声的标准差ρ,其调整方法为:
Figure BDA0002997255340000055
其中,k为自学习阶段的第k次装配实验,α为比例因子,δk=ρk是为了获得有效探索设置的自适应参数;
Figure BDA0002997255340000056
其中,M为动作空间的维数,
Figure BDA0002997255340000057
为策略网络输出的原动作策略π(s|θπ)与增加参数空间探索后的动作策略
Figure BDA0002997255340000058
差异的期望。
在一些优选的实施例中,所述动作空间探索中高斯噪声的标准差σ,其调整方法为:
Figure BDA0002997255340000061
其中,k为自学习阶段的第k次装配实验,η为限制σ变化的比例因子;
Figure BDA0002997255340000062
其中,W为滑动窗口宽度,rk为自学习阶段的第k次装配实验的累积回报。
在一些优选的实施例中,所述评估网络和策略网络的预训练中,通过最小化均方误差更新所述评估网络,通过加入行为克隆损失函数的第一损失函数更新所述策略网络;
所述加入行为克隆损失函数的第一损失函数为:
L(θπ)=β1J(θπ)-β2Lbπ)
其中,β1和β2分别为损失函数J(θπ)和行为克隆损失函数Lbπ)的损失值在总损失中的权重;
Figure BDA0002997255340000063
Figure BDA0002997255340000064
其中,ND为预训练中样本数据的数量,ai为给定装配状态si下专家采取的动作,π(siπ)为对应状态si的策略网络的输出的动作策略,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
在一些优选的实施例中,所述评估网络和策略网络的自学习中,通过最小化均方误差更新所述评估网络,通过第二损失函数更新所述策略网络;
所述第二损失函数为:
Figure BDA0002997255340000071
其中,NS为预训练中样本数据的数量,ai为第i个预训练样本中的动作,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
本发明的有益效果:
(1)本发明基于专家演示和强化学习的微零件装配方法,基于深度确定性策略梯度(DDPG)强化学习框架,将强化学习和演示学习有效结合,解决了在实际系统上进行微零件精密装配技能学习的问题。首先,基于演示学习模仿专家装配操作;然后,基于设计的强化学习方法进一步优化装配技能;最后,采用学习到装配技能策略进行微零件装配。本发明克服了智能体在动作空间中进行大量探索,但是在探索过程中可能出现危险动作,很难直接将强化学习方法应用于实际的精密装配系统进行技能训练的问题,本发明方法保证了微零件装配的效率和安全性,随着微机电系统的快速发展,本发明的应用前景和社会经济效益是可观的。
(2)本发明基于专家演示和强化学习的微零件装配方法,对于装配任务,装配的目标是在保持径向受力尽可能低的同时,提高装配效率,由于装配任务的复杂动态接触,难以设计精确的回报函数,没有合适的回报函数,智能体很难学到最优的策略进行强化学习和数据增强。本发明设计了新的模糊回报函数,有效提升了强化学习的效果,从而提升了后续微零件装配的效率、准确性和精度。
(3)本发明基于专家演示和强化学习的微零件装配方法,为强化学习设计了混合探索方法,包括参数空间探索方法和动作空间探索方法,有效提升了模型自学习阶段的学习效率和探索性能。
(4)本发明基于专家演示和强化学习的微零件装配方法,在预训练阶段进行策略网络训练时在总损失函数中增加了行为克隆损失,在自学习阶段进行策略网络自学习时设计了新的总损失函数,有效提升了模型训练的效率,降低模型收敛难度,从而提升了后续微零件装配的效率、准确性和精度。
(5)本发明基于专家演示和强化学习的微零件装配方法,解决了现有技术中尽管通过建立仿真系统进行预训练可以加快学习过程,但是仿真环境与实际系统之间仍然存在差距,特别是,在精密装配过程中微零件的形变被限制在几微米以内,很难保证仿真系统的真实性的问题,具有操作方便、实用性强、执行效率高的特点。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于专家演示和强化学习的微零件装配方法一种实施例的系统结构示意图;
图2是本发明基于专家演示和强化学习的微零件装配方法一种实施例的微零件装配模型训练流程示意图;
图3是本发明基于专家演示和强化学习的微零件装配方法一种实施例的数据增强示意图;
图4是本发明基于专家演示和强化学习的微零件装配方法一种实施例的策略网络和评价网络结构示意图;
图5是本发明基于专家演示和强化学习的微零件装配方法一种实施例的装配中接触力和动作变化;
图6是本发明基于专家演示和强化学习的微零件装配方法一种实施例的初始位置偏移时的装配中接触力和动作变化。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种基于专家演示和强化学习的微零件装配方法,其微零件装配模型的训练中结合专家演示和强化学习进行微零件装配技能学习,技能学习效率和安全性得到提高,而且学到的装配技能的技能复现阶段的效率和灵活性得到大大提高,提高了微零件装配的智能性。
本发明的一种基于专家演示和强化学习的微零件装配方法,该方法包括:
步骤S10,采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
步骤S20,实时获取微零件a和微零件b之间的三维力信息;
步骤S30,通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配;
其中,所述微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络;
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练;
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
为了更清晰地对本发明基于专家演示和强化学习的微零件装配方法进行说明,下面结合附图对本发明实施例中各步骤展开详述。
本发明第一实施例的基于专家演示和强化学习的微零件装配方法,包括步骤S10-步骤S30,各步骤详细描述如下:
步骤S10,采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
步骤S20,实时获取微零件a和微零件b之间的三维力信息;
步骤S30,通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配。
如图1所示,为本发明基于专家演示和强化学习的微零件装配方法一种实施例的系统结构示意图,包括计算机1、执行机构2、执行机构3、视觉系统4、视觉系统5、力传感器6,其中:
计算机1用于接收视觉系统4和视觉系统5采集的图像,提取图像特征,同时用于接收力传感器采集到的三维力信息,并根据控制器对执行机构2和执行机构3进行运动控制,完成零件7(微零件a)和零件8(微零件b)的装配任务。
执行机构2固定安装在装配平台上,包含三个旋转自由度,用于装配过程中调整零件8的空间三维姿态,实现零件7和零件8的姿态对准。
执行机构3固定安装在装配平台上,包含三个旋转自由度,用于装配过程中调整零件7的空间三维位置,实现零件7和零件8的装配。
视觉系统4、视觉系统5均固定安装在执行机构2附近,视觉系统4的光轴平行于水平面,视觉系统5的光轴平行于水平面且与视觉系统4的光轴垂直,视觉系统4、视觉系统5均用于采集零件7和零件8的图像,并将图像通过视觉联接线10、视觉联接线9传输到计算机1,用于图像处理。
力传感器6固定安装在执行机构3上,力传感器的ZF轴、YF轴和XE轴分别和执行机构3的ZE轴XE轴和YE轴平行,力传感器6用于采集装配过程中零件7和零件8的接触力信息,并将力信息通过第二控制线12传输到计算机1。
零件7夹持在执行机构3末端的力传感器6的下方,通过控制执行机构3的三维平移实现零件7的位置调整,零件8夹持在执行机构2的末端,通过控制执行机构2的三维旋转实现零件8的姿态调整。
视觉系统5通过视觉联接线9连接至计算机1,视觉系统4通过视觉联接线10连接至计算机1,执行机构2通过第三控制线13连接至计算机1,执行机构3通过第一控制线11连接至计算机1,力传感器6通过第二控制线12连接至计算机1。
在本发明一个实施例中,执行机构2由Micos WT-100以及Sigma SGSP-40YAW构成,执行机构3为Suguar KWG06030-G,视觉系统4和视觉系统5均由GC2450相机和和Navitar镜头构成,力传感器6为ATI Nano-43,零件7和零件8均为薄壁圆柱结构,其中零件7的高度为7.0mm,零件8的高度为4.0mm。零件7的内径为4.0mm,零件8的外径为4.01mm,零件之间的过盈配合量为10μm。
如图2所示,为本发明基于专家演示和强化学习的微零件装配方法一种实施例的微零件装配模型训练流程示意图,微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络。
本发明构建的模糊回报函数如式(1)所示:
Figure BDA0002997255340000121
其中,c为一次微零件装配中从开始装配到装配完成过程中动作a执行的次数,cmax为设置的装配过程中动作的最大限制次数,Ri为第i个模糊回报规则,μi为第i个模糊回报规则的模糊隶属度,m为满足模糊回报规则的条件个数。本发明一个实施例中,cmax=50。
Figure BDA0002997255340000122
是在每次装配实验结束时获得的回报,以鼓励智能体完成装配任务,
Figure BDA0002997255340000123
是在每次动作后根据径向接触力fr和轴向进给步长dz计算的模糊回报。
混合探索方法包括参数空间探索方法和动作空间探索方法;
参数空间探索方法如式(2)所示:
Figure BDA0002997255340000131
其中,θπ是策略网络的原始参数,
Figure BDA0002997255340000132
为增加参数空间探索后的策略网络的参数,
Figure BDA0002997255340000133
表示高斯噪声函数,ρ为参数空间探索中高斯噪声的标准差,I为单位矩阵。
参数空间探索中高斯噪声的标准差ρ,其调整方法如式(3)所示:
Figure BDA0002997255340000134
其中,k为自学习阶段的第k次装配实验,α为比例因子,δk=ρk是为了获得有效探索设置的自适应参数。本发明一个实施例中,α=1.01。
增加参数空间探索的动作策略和策略网络输出的原动作策略之间的距离度量d(·,·)如式(4)所示:
Figure BDA0002997255340000135
其中,M为动作空间的维数,
Figure BDA0002997255340000136
为策略网络输出的原动作策略π(s|θπ)与增加参数空间探索后的动作策略
Figure BDA0002997255340000137
差异的期望。
动作空间探索方法如式(5)所示:
Figure BDA0002997255340000138
其中,a为增加参数空间探索和动作空间探索后的动作,σ为动作空间探索中高斯噪声的标准差。
动作空间探索中高斯噪声的标准差σ,其调整方法如式(6)所示:
Figure BDA0002997255340000139
其中,k为自学习阶段的第k次装配实验,η为限制σ变化的比例因子。本发明一个实施例中,η=0.5。
当前装配的累积回报相对于前W次装配平均累积回报的增量Δrk如式(7)所示:
Figure BDA0002997255340000141
其中,W为滑动窗口宽度,rk为自学习阶段的第k次装配实验的累积回报。本发明一个实施例中,W=10。
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练。
专家演示数据,其获取方法为:
步骤B10,定义装配过程中专家每次控制所述第二执行机构平移一次的动作a=[dx,dy,dz]T以及装配系统状态信息s=[fx,fy,fz,pz]T
其中,dx,dy分别为沿第二执行机构XE,YE轴的调整量,dz>0为沿第二执行机构ZE轴负方向的装配步长,fx,fy,fz分别代表三维力信息中沿力传感器的XF,YF,ZF轴的接触力,pz为沿第二执行机构ZE轴的装配深度;
步骤B20,执行一次动作a,获取执行后的装配系统状态信息s以及动作执行后的回报r;
步骤B30,判断当前时刻s是否为装配结束状态,若不是,则跳转步骤B20;否则,结束装配过程;
步骤B40,将所述装配过程中获取的数据构建为数据组(si,ai,ri,si+1),获得专家演示数据;
其中,si代表当前动作ai执行前的装配系统状态信息,ri代表当前动作ai执行后获得的回报,si+1代表当前动作ai执行后的装配系统状态信息。
专家进行几次演示装配后,并将演示装配数据(si,ai,ri,si+1)存储在RD中,用于后续的状态转移模型的学习和数据增强。
状态转移模型,其训练方法为:
步骤C10,基于非线性微分方程构建状态转移模型,如式(8)所示:
Figure BDA0002997255340000151
其中,st+1为t时刻装配系统状态信息st在执行动作at后获得的t+1时刻装配系统状态信息,K为比例系数矩阵,
Figure BDA0002997255340000152
为表示状态转移中的不确定性的高斯函数,∑代表方差矩阵;
步骤C20,基于专家演示数据,通过最小二乘法进行比例系数矩阵K和方差矩阵∑的离线学习,获得训练好的状态转移模型。
本发明一个实施例中,学习结果如式(9)和式(10)所示:
Figure BDA0002997255340000153
Figure BDA0002997255340000154
如图3所示,为本发明基于专家演示和强化学习的微零件装配方法一种实施例的数据增强示意图,数据增强的目的是基于少量演示数据即可得到大量的预训练数据,并将预训练数据用于强化学习框架中神经网络的训练,通过学习到的状态转移模型和专家演示数据进行数据增强,其中,在第i个采样周期,状态si和来自专家演示数据的相应动作ai被添加高斯噪声以获得增强状态
Figure BDA0002997255340000155
和动作
Figure BDA0002997255340000156
为了避免不合理的动作,设计了限幅函数限制探索动作
Figure BDA0002997255340000161
的幅值。另外,根据状态转移模型和模糊回报系统得到了数据增强后的下一个状态
Figure BDA0002997255340000162
和回报值
Figure BDA0002997255340000163
增强数据
Figure BDA0002997255340000164
也被保存在RD中。
数据增强,其公式表示如式(11)所示:
Figure BDA0002997255340000165
其中,
Figure BDA0002997255340000166
构成数据增强后的训练数据,
Figure BDA0002997255340000167
Figure BDA0002997255340000168
分别代表数据增强的状态和动作的方差,
Figure BDA0002997255340000169
为限制增强后的动作幅值的限幅函数,r(·)为模糊回报函数。
本发明一个实施例中,通过对历史装配数据的分析,设置
Figure BDA00029972553400001610
如图4所示,为本发明基于专家演示和强化学习的微零件装配方法一种实施例的策略网络和评价网络结构示意图,策略网络Q(s,a|θQ)包括2个32-D Dense Relu层(32维全连接线性整流函数)和1个32-D Dense Tanh层(32维全连接双曲正切函数),评估网络π(s|θπ)包括并行的2个32-D Relu层(32维线性整流函数),1个32-D Dense Relu层(32维全连接线性整流函数)和1个32-D Dense Tanh层(32维全连接双曲正切函数)。
预训练阶段。在预训练阶段,期望执行机构3尽可能地模仿专家的行为执行装配操作。因而,为了使预训练阶段学习到的装配技能尽可能地接近专家装配水平,在训练策略网络时采用增加了行为克隆损失的第一损失函数,如式(12)所示:
L(θπ)=β1J(θπ)-β2Lbπ) (12)
其中,β1和β2分别为损失函数J(θπ)和行为克隆损失函数Lbπ)的损失值在总损失中的权重。
β1J(θπ)通过式(13)计算:
Figure BDA0002997255340000171
行为克隆损失函数Lbπ)如式(14)所示:
Figure BDA0002997255340000172
其中,ND为预训练中样本数据的数量,ai为给定装配状态si下专家采取的动作,π(siπ)为对应状态si的策略网络的输出的动作策略,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
另外,可通过最小化式(15)的均方误差更新评估网络:
Figure BDA0002997255340000173
其中,yi通过式(16)计算:
yi=r(si,ai)+γQ′(si+1,π′(si+1π′)|θQ′)
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
自学习阶段。执行机构3根据设计的强化学习框架进行装配技能自学习。首先,建立一个有限大小的经验回放缓冲区RS以保存执行机构3在装配环境探索时的训练样本(si,ai,ri,si+1);然后,在每个训练周期,从RS中随机采样训练样本用于训练策略网络和评估网络,其中,采样的小批量训练样本为(si,ai,ri,si+1),i=1,2,…,NS,本发明一个实施例中,NS=100是批量采样数据的大小。
通过第二损失函数更新策略网络,第二损失函数如式(16)所示:
Figure BDA0002997255340000181
其中,NS为预训练中样本数据的数量,ai为第i个预训练样本中的动作,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
通过最小化均方误差更新评估网络,如式(17)所示:
Figure BDA0002997255340000182
为了避免过度拟合,在更新策略网络和评估网络时采用了L2正则化损失,并且在策略网络和评估网络的所有层中都使用批处理规范化,避免无效学习。
如图5和图6所示,为本发明基于专家演示和强化学习的微零件装配方法一种实施例的装配中接触力和动作变化以及初始位置偏移时的装配中接触力和动作变化,横坐标代表装配中的步数,纵坐标代表接触力(单位:mN)和动作(单位:μm),可以看出,智能体学习到的控制策略能够根据径向力fx和fy的大小合理地调整dx和dy,由此降低径向力以保证安全性,而且能够调整进给步长dz以提高装配效率,同时本发明学习的装配策略对初始位置误差也具备一定的适应性。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于专家演示和强化学习的微零件装配系统,该系统包括:
初始位置调整模块,配置为采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
三维力信息采集模块,配置为实时获取微零件a和微零件b之间的三维力信息;
微零件装配模块,配置为通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配;
其中,所述微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络;
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练;
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于专家演示和强化学习的微零件装配系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于专家演示和强化学习的微零件装配方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于专家演示和强化学习的微零件装配方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于专家演示和强化学习的微零件装配方法,其特征在于,该方法包括:
步骤S10,采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
步骤S20,实时获取微零件a和微零件b之间的三维力信息;
步骤S30,通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配;
其中,所述微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络;
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练;
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
2.根据权利要求1所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述专家演示数据,其获取方法为:
步骤B10,定义装配过程中专家每次控制所述第二执行机构平移一次的动作a=[dx,dy,dz]T以及装配系统状态信息s=[fx,fy,fz,pz]T
其中,dx,dy分别为沿第二执行机构XE,YE轴的调整量,dz>0为沿第二执行机构ZE轴负方向的装配步长,fx,fy,fz分别代表三维力信息中沿力传感器的XF,YF,ZF轴的接触力,pz为沿第二执行机构ZE轴的装配深度;
步骤B20,执行一次动作a,获取执行后的装配系统状态信息s以及动作执行后的回报r;
步骤B30,判断当前时刻s是否为装配结束状态,若不是,则跳转步骤B20;否则,结束装配过程;
步骤B40,将所述装配过程中获取的数据构建为数据组(si,ai,ri,si+1),获得专家演示数据;
其中,si代表当前动作ai执行前的装配系统状态信息,ri代表当前动作ai执行后获得的回报,si+1代表当前动作ai执行后的装配系统状态信息。
3.根据权利要求2所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述状态转移模型,其训练方法为:
步骤C10,基于非线性微分方程构建状态转移模型:
Figure FDA0002997255330000021
其中,st+1为t时刻装配系统状态信息st在执行动作at后获得的t+1时刻装配系统状态信息,K为比例系数矩阵,
Figure FDA0002997255330000022
为表示状态转移中的不确定性的高斯函数,∑代表方差矩阵;
步骤C20,基于专家演示数据,通过最小二乘法进行比例系数矩阵K和方差矩阵∑的离线学习,获得训练好的状态转移模型。
4.根据权利要求1所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述数据增强,其公式表示为:
Figure FDA0002997255330000023
其中,
Figure FDA0002997255330000031
构成数据增强后的训练数据,
Figure FDA0002997255330000032
Figure FDA0002997255330000033
分别代表数据增强的状态和动作的方差,
Figure FDA0002997255330000034
为限制增强后的动作幅值的限幅函数,r(·)为模糊回报函数。
5.根据权利要求1或4所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述模糊回报函数为:
Figure FDA0002997255330000035
其中,c为一次微零件装配中从开始装配到装配完成过程中动作a执行的次数,cmax为设置的装配过程中动作的最大限制次数,Ri为第i个模糊回报规则,μi为第i个模糊回报规则的模糊隶属度,m为满足模糊回报规则的条件个数。
6.根据权利要求1的基于专家演示和强化学习的微零件装配方法,其特征在于,所述混合探索方法包括参数空间探索方法和动作空间探索方法;
所述参数空间探索方法为:
Figure FDA0002997255330000036
其中,θπ是策略网络的原始参数,
Figure FDA0002997255330000037
为增加参数空间探索后的策略网络的参数,
Figure FDA0002997255330000038
表示高斯噪声函数,ρ为参数空间探索中高斯噪声的标准差,I为单位矩阵;
所述动作空间探索方法为:
Figure FDA0002997255330000039
其中,a为增加参数空间探索和动作空间探索后的动作,σ为动作空间探索中高斯噪声的标准差。
7.根据权利要求6的基于专家演示和强化学习的微零件装配方法,其特征在于,所述参数空间探索中高斯噪声的标准差ρ,其调整方法为:
Figure FDA0002997255330000041
其中,k为自学习阶段的第k次装配实验,α为比例因子,δk=ρk是为了获得有效探索设置的自适应参数;
Figure FDA0002997255330000042
其中,M为动作空间的维数,
Figure FDA0002997255330000043
为策略网络输出的原动作策略π(s|θπ)与增加参数空间探索后的动作策略
Figure FDA0002997255330000044
差异的期望。
8.根据权利要求6的基于专家演示和强化学习的微零件装配方法,其特征在于,所述动作空间探索中高斯噪声的标准差σ,其调整方法为:
Figure FDA0002997255330000045
其中,k为自学习阶段的第k次装配实验,η为限制σ变化的比例因子;
Figure FDA0002997255330000046
其中,W为滑动窗口宽度,rk为自学习阶段的第k次装配实验的累积回报。
9.根据权利要求1的基于专家演示和强化学习的微零件装配方法,其特征在于,所述评估网络和策略网络的预训练中,通过最小化均方误差更新所述评估网络,通过加入行为克隆损失函数的第一损失函数更新所述策略网络;
所述加入行为克隆损失函数的第一损失函数为:
L(θπ)=β1J(θπ)-β2Lbπ)
其中,β1和β2分别为损失函数J(θπ)和行为克隆损失函数Lbπ)的损失值在总损失中的权重;
Figure FDA0002997255330000051
Figure FDA0002997255330000052
其中,ND为预训练中样本数据的数量,ai为给定装配状态si下专家采取的动作,π(siπ)为对应状态si的策略网络的输出的动作策略,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
10.根据权利要求1的基于专家演示和强化学习的微零件装配方法,其特征在于,所述评估网络和策略网络的自学习中,通过最小化均方误差更新所述评估网络,通过第二损失函数更新所述策略网络;
所述第二损失函数为:
Figure FDA0002997255330000053
其中,NS为预训练中样本数据的数量,ai为第i个预训练样本中的动作,Q(si,aiQ)代表对应第i个预训练样本的动作值函数,π(si)代表对应状态si的动作策略。
CN202110335254.9A 2021-03-29 2021-03-29 基于专家演示和强化学习的微零件装配方法 Active CN113043275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335254.9A CN113043275B (zh) 2021-03-29 2021-03-29 基于专家演示和强化学习的微零件装配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335254.9A CN113043275B (zh) 2021-03-29 2021-03-29 基于专家演示和强化学习的微零件装配方法

Publications (2)

Publication Number Publication Date
CN113043275A true CN113043275A (zh) 2021-06-29
CN113043275B CN113043275B (zh) 2022-05-24

Family

ID=76516114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335254.9A Active CN113043275B (zh) 2021-03-29 2021-03-29 基于专家演示和强化学习的微零件装配方法

Country Status (1)

Country Link
CN (1) CN113043275B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN114347043A (zh) * 2022-03-16 2022-04-15 季华实验室 一种机械手模型学习方法、装置、电子设备及存储介质
CN115338610A (zh) * 2022-07-04 2022-11-15 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN116401785A (zh) * 2023-03-28 2023-07-07 广州中望龙腾软件股份有限公司 一种基于MLP-Mixer的装配数据管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
WO2019028075A1 (en) * 2017-08-01 2019-02-07 Enova Technology, Inc. INTELLIGENT ROBOTS
CN109397285A (zh) * 2018-09-17 2019-03-01 鲁班嫡系机器人(深圳)有限公司 一种装配方法、装配装置及装配设备
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN112380616A (zh) * 2020-10-27 2021-02-19 中国科学院沈阳自动化研究所 高复杂易形变航天舱段高精度数字孪生对接装配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
WO2019028075A1 (en) * 2017-08-01 2019-02-07 Enova Technology, Inc. INTELLIGENT ROBOTS
CN109397285A (zh) * 2018-09-17 2019-03-01 鲁班嫡系机器人(深圳)有限公司 一种装配方法、装配装置及装配设备
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN112380616A (zh) * 2020-10-27 2021-02-19 中国科学院沈阳自动化研究所 高复杂易形变航天舱段高精度数字孪生对接装配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MA,YQ;XU,D;QIN,FB: "Efficient Insertion Control for Precision Assembly Based on Demonstration Learning and Reinforcement Learning", 《 IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113641099B (zh) * 2021-07-13 2023-02-10 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN114347043A (zh) * 2022-03-16 2022-04-15 季华实验室 一种机械手模型学习方法、装置、电子设备及存储介质
CN114347043B (zh) * 2022-03-16 2022-06-03 季华实验室 一种机械手模型学习方法、装置、电子设备及存储介质
CN115338610A (zh) * 2022-07-04 2022-11-15 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN115338610B (zh) * 2022-07-04 2024-02-13 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN116401785A (zh) * 2023-03-28 2023-07-07 广州中望龙腾软件股份有限公司 一种基于MLP-Mixer的装配数据管理方法及系统
CN116401785B (zh) * 2023-03-28 2023-12-08 广州中望龙腾软件股份有限公司 一种基于MLP-Mixer的装配数据管理方法及系统

Also Published As

Publication number Publication date
CN113043275B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN113043275B (zh) 基于专家演示和强化学习的微零件装配方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111881772B (zh) 基于深度强化学习的多机械臂协同装配方法和系统
Yang et al. Robot learning system based on adaptive neural control and dynamic movement primitives
Yang et al. Haptics electromyography perception and learning enhanced intelligence for teleoperated robot
CN112102405B (zh) 基于深度强化学习的机器人搅动-抓取组合方法
WO2020207017A1 (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
US20240308068A1 (en) Data-efficient hierarchical reinforcement learning
CN110909859A (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN112965372B (zh) 基于强化学习的微零件精密装配方法、装置和系统
CN112847235B (zh) 基于深度强化学习的机器人分阶力引导装配方法及系统
CN114310888B (zh) 一种协作机器人可变刚度运动技能学习与调控方法及系统
Zhao et al. Model accelerated reinforcement learning for high precision robotic assembly
Ambhore A comprehensive study on robot learning from demonstration
Ma et al. An efficient robot precision assembly skill learning framework based on several demonstrations
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
CN114571456A (zh) 基于机器人技能学习的电连接器装配方法及系统
Meng et al. Reinforcement learning based variable impedance control for high precision human-robot collaboration tasks
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
CN116749194A (zh) 一种基于模型的机器人操作技能参数学习方法
CN114594757B (zh) 一种协作机器人的视觉路径规划方法
Nakajo et al. Acquisition of viewpoint representation in imitative learning from own sensory-motor experiences
CN114454160A (zh) 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
Konidaris et al. Sensorimotor abstraction selection for efficient, autonomous robot skill acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant