CN112965372B - 基于强化学习的微零件精密装配方法、装置和系统 - Google Patents
基于强化学习的微零件精密装配方法、装置和系统 Download PDFInfo
- Publication number
- CN112965372B CN112965372B CN202110137780.4A CN202110137780A CN112965372B CN 112965372 B CN112965372 B CN 112965372B CN 202110137780 A CN202110137780 A CN 202110137780A CN 112965372 B CN112965372 B CN 112965372B
- Authority
- CN
- China
- Prior art keywords
- micro
- action
- micro part
- reinforcement learning
- force sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000009471 action Effects 0.000 claims abstract description 85
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000000007 visual effect Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 25
- 238000004088 simulation Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000003780 insertion Methods 0.000 claims description 12
- 230000037431 insertion Effects 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25B—TOOLS OR BENCH DEVICES NOT OTHERWISE PROVIDED FOR, FOR FASTENING, CONNECTING, DISENGAGING OR HOLDING
- B25B27/00—Hand tools, specially adapted for fitting together or separating parts or objects whether or not involving some deformation, not otherwise provided for
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
本发明属于控制技术,具体涉及了一种基于强化学习的微零件精密装配方法、装置和系统,旨在解决现有装配技术效率低适用性差的问题。本发明包括:实时获取微零件的图像和力传感器信息,先通过微零件的图像进行位姿对准,再基于力传感器信息通过基于强化学习的装配模型完成装配。所述基于强化学习的装配模型,通过构建力的雅可比矩阵获取专家动作并通过强化学习框架获取改进动作,将专家动作和改进动作相加获得最终动作,基于最终动作通过本发明特有的回合‑单步动态探索策略完成装配并获取基于强化学习的装配模型,本发明提高了操作的便捷度,还提高了模型的训练效率和精密装配效率同时提高了微零件精确装配方法的适用性。
Description
技术领域
本发明属于控制技术领域,具体涉及了一种基于强化学习的微零件精密装配方法、装置和系统。
背景技术
近年来,微操作和微装配获得了更加广泛的关注,并广泛应用于机器人、生物医学和芯片制造等方面。在微装配中,通常需要将两个或者多个球装配到一起,如何高效地完成微零件的精密装配存在挑战。
在精密装配领域,存在一些精密装配方法。有的采用了基于力反馈的方式,通过不断调整零件的相对位置,完成装配(可参见文献:S.Liu,D.Xu,D.P.Zhang and Z.T.Zhang,“High precision automatic assembly based on microscopic vision and forceinformation”,IEEE Transactions on Automation Science and Engineering,vol.13,no.1,pp.382-393,2016.)。但其调整策略是预先设定的,效率较低。有的通过对零件接触状态建模的方式,实现两个柔性零件装配(可参见文献:D.P.Xing,Y.Lv,S.Liu,D.Xu andF.F.Liu,“Efficient insertion of multiple objects parallel connected bypassive compliant mechanisms in precision assembly”,IEEE Transactions onIndustrial Informatics,vol.15,no.9,pp.4878-4887,2019.)。但是,零件间的接触状态通常难以精确建模,因此这种方法的适用性不高。
发明内容
为了解决现有技术中的上述问题,即现有的精密零件装配方法需要预先设定调整策略,并且难以精确地对零件的接触状态精确建模导致的现有技术装配效率不高并且适用性较差的问题,本发明提供了一种基于强化学习的微零件精密装配方法,包括:
步骤S100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤S200,基于第一微零件的显微视觉图像、第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤S300,基于所述力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
在一些优选的实施方式中,所述基于强化学习的装配模型,其获得方法为:
步骤A100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤A200基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤A300,基于所述力传感器信息,通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵;
步骤A400,基于所述力的雅可比矩阵获取专家动作ae;
步骤A500,通过强化学习框架,获取改进动作ar;
步骤A600,将所述专家动作ae和改进动作ar相加获得最终动作at;
步骤A700,基于所述最终动作at,通过回合-单步动态探索策略,将位姿对准后的第一微零件和第二微零件进行装配,得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
在一些优选的实施方式中,所述强化学习框架包括评估网络和动作网络;
所述评估网络,通过最大化目标函数J(θμ)更新评估网络的网络参数θμ训练强化学习框架:
J(θμ)=E[Q(si,μ(si|θμ))]
其中,J(θμ)表示目标函数,E表示数学期望,Q表示动作值,si=[fx,fy,fz,pz]T表示第i个样本的状态,其中fx,fy,fz表示沿着Xf,Yf,Zf轴方向的接触力,pz表示当前沿着ZW轴方向的插入深度;
所述动作网络,通过最小化损失函数L更新动作网络的网络参数θQ训练强化学习框架:
其中,n表示回合中的步数,si表示第i个样本的状态,yi表示动作值Q的目标值,ai=[dx,dy,dz]T表示装配动作,其中dx,dy,dz表示分别沿着XW、YW和ZW轴方向的调整运动量。
在一些优选的实施方式中,步骤A700包括:
步骤A710,向所述最终动作at添加高斯噪声,生成带噪声的动作af:
af=at+N(0,σaI)
其中,σa为标准差,N表示高斯噪声,I表示单位矩阵;
步骤A720,基于所述带噪声的动作af,通过重复进行回合-单步的动态探索策略,获得训练好的强化学习框架;
所述回合-单步的动态探索包括回合探索和单步探索;
所述回合探索,在每回合完成后更新标准差σa的数值,其方法为:
其中,ns为回合中的步数;σt1和σt2表示预设的阈值且σt1>σt2,RMi表示奖励函数;
所述单步探索,在回合中每一步动作后更新标准差σa的数值,其方法为:
根据所述安全-效率奖励函数更新标准差σa:
σa←σa-σbtanh(RM-Re)
其中,σb为预设的常数,且σa被限制在预设的范围[σmin,σmax]内;
构建安全-效率奖励函数RMi,包括安全奖励R1i和效率奖励R2i;
其中,fT为最大径向接触力,DT为允许的最大插入步长,fri是执行第i次动作后的径向接触力,dzi为第i次动作后沿ZW轴方向的调整运动量,R1i表示第i次动作后的安全奖励,R2i表示第i次动作后的效率奖励,R1(i-1)为第i-1次动作的安全奖励;
步骤A730,基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配,并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
在一些优选的实施方式中,所述专家动作ae为:
ae=[dex,dey,dez]
其中,dex表示沿着XW轴的调整运动量,dey表示沿着YW轴的调整运动量,dez表示沿着ZW轴的插入步长;
所述dex和dey为:
其中,JF∈R2×2是力的雅可比矩阵,β∈(0,1),fx和fy表示接触力。
在一些具体的实施方式中,步骤A730所述将位姿对准后的第一微零件和第二微零件进行装配,还包括,建立仿真环境与实际精密装配装置之间的联系,在仿真环境中进行基于强化学习的装配模型的训练,使仿真环境中的受力状态与实际环境一致,具体方法为:
计算所述力的雅可比矩阵JF的逆矩阵JX,表示受力与相对运动之间的关系,用于设置仿真环境的受力状态。
仿真环境参数根据上述方法设置好之后,在仿真环境中进行训练。
通过将仿真环境的受力状态设置为与实际环境一致,通过本发明提出的方法获得的基于强化学习的装配模型可以无障碍地直接运用于实际环境中的微零件精密装配任务。
本发明的另一方面,提出了一种基于强化学习的微零件精密装配装置,包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机;
所述显微视觉系统,包括3路显微相机,光轴方向近似正交,用于采集第一微零件和第二微零件的图像,实施位姿对准;
所述调整平台,设置于显微视觉系统可观测范围内,具有3个旋转自由度和1个平移自由度,用于设置第一微零件;还用于设置力传感器,所述力传感器用于提供第一微零件和第二微零件的接触力信息;
所述操作手,设置于显微视觉系统可观测范围内,具有3个平移自由度,用于设置第二微零件;
所述计算机,通过视觉连接线与显微视觉系统连接;还通过控制连接线与调整平台和操作手连接;用于接收所述显微视觉系统采集的显微视觉图像,还用于接收所述力传感器采集到的接触力信息,并控制实现第一微零件和第二微零件的位姿对准和精密装配。
本发明的第三方面,提出了一种基于强化学习的微零件精密装配系统,包括:信息采集模块、微零件位姿对准模块和微零件装配模块;
所述信息采集模块,配置为实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
所述微零件位姿对准模块,配置为基于第一微零件的显微视觉图像、第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
所述微零件装配模块,基于力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
本发明的第四方面,提出了一种设备,包括:至少一个处理器;以及以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于强化学习的微零件精密装配方法。
本发明的第五方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于强化学习的微零件精密装配方法。
本发明的有益效果:
(1)本发明基于强化学习的微零件精密装配方法,通过基于回合-单步的动态探索策略训练强化学习模型,建立起仿真环境与实际精密装配装置的联系,提高了模型的训练效率和精密装配效率,具有广泛的应用前景。
(2)本发明通过在仿真环境中将受力状态设置为与实际环境一致,本发明在虚拟环境中通过回合-单步探索策略获得的基于强化学习的装配模型可以直接无障碍地运用到各种实际环境中,具有更好的适用性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明实施例的基于强化学习的微零件精密装配方法的流程示意图;
图2是本发明实施例的基于强化学习的微零件精密装配方法的原理示意图;
图3是本发明第二实施例的基于强化学习的微零件精密装配装置的示意图;
图4是本发明实施例装配过程中沿着Xf轴和沿着Yf轴接触力的变化过程示意图;
图5是本发明实施例装配过程中沿着Zf轴的接触力的变化过程示意图;
图6是本发明实施例装配过程中调整运动量的变化过程示意图;
图7是本发明实施例装配过程中整体的运动轨迹示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请提高了模型的训练效率和精密装配效率,具有广泛的应用前景。
本发明提供一种基于强化学习的微零件精密装配方法;
本发明的一种基于强化学习的微零件精密装配方法,包括:
步骤S100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤S200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤S300,基于所述力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配。
为了更清晰地对本发明基于强化学习的微零件精密装配方法进行说明,下面结合图1和图2对本发明实施例中各步骤展开详述。
本发明第一实施例的基于强化学习的微零件精密装配方法,包括步骤S100-步骤S300,各步骤详细描述如下:
步骤S100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤S200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤S300基于力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
在本实施例中,所述基于强化学习的装配模型,其获得方法包括步骤A100-步骤A700:
步骤A100,获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤A200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像完成第一微零件和第二微零件位姿对准;
步骤A300,基于所述力传感器信息,通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵;
步骤A400,基于所述力的雅可比矩阵获取专家动作ae;
在本实施例中,所述专家动作ae为:
ae=[dex,dey,dez]
其中,dex表示沿着XW轴的调整运动量,dey表示沿着YW轴的调整运动量,dez表示沿着ZW轴的插入步长;
所述dex和dey为:
其中,JF∈R2×2是力的雅可比矩阵,β∈(0,1),fx和fy表示接触力。
步骤A500,通过强化学习框架,获取改进动作ar;
在本实施例中,强化学习框架包括评估网络和动作网络;
所述评估网络,通过在仿真环境中最大化目标函数J(θμ)更新评估网络的网络参数θμ训练强化学习框架:
J(θμ)=E[Q(si,μ(si|θμ))]
其中,J(θμ)表示目标函数,E表示数学期望,Q表示动作值,si=[fx,fy,fz,pz]T表示第i个样本的状态,其中fx,fy,fz表示沿着Xf,Yf,Zf轴方向的接触力,pz表示当前沿着ZW轴方向的插入深度;在本实施例中,力传感器坐标系[Xf,Yf,Zf]与世界坐标系[XW,YW,ZW]为两个不同的坐标系,力传感器坐标系表示力传感器的受力,世界坐标系表示操作手的运动;
所述动作网络,通过在仿真环境中最小化损失函数L更新动作网络的网络参数θQ训练强化学习框架:
其中,n表示回合中的步数,si表示第i个样本的状态,yi表示动作值Q的目标值,ai=[dx,dy,dz]T表示装配动作,其中dx,dy,dz表示分别沿着XW、YW和ZW轴方向的调整运动量。
步骤A600,将所述专家动作ae和改进动作ar相加获得最终动作at;
步骤A700,基于所述最终动作at,通过回合-单步动态探索策略探索状态空间,将位姿对准后的第一微零件和第二微零件进行装配,得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
在本实施例中,步骤A700包括:
步骤A710,向所述最终动作at添加高斯噪声,生成带噪声的动作af:
af=at+N(0,σaI)
其中,σa为标准差,N表示高斯噪声,I表示单位矩阵;标准差σa决定探索的强度。
步骤A720,基于所述带噪声的动作af,通过重复进行回合-单步的动态探索,获得训练好的强化学习框架;
所述回合-单步的动态探索包括回合探索和单步探索;
所述回合探索,在每回合完成后更新标准差σa的数值,其方法为:
其中,ns为回合中的步数;σt1和σt2表示预设的阈值且σt1>σt2,每回合完成后,更新σa的数值,RMi表示奖励函数;
所述单步探索,在回合中每一步动作后更新标准差σa的数值,其方法为:
根据安全-效率奖励函数更新标准差σa:
σa←σa-σbtanh(RM-Re)
其中,σb为预设的常数,且σa被限制在预设的范围[σmin,σmax]内;
所述安全-效率奖励函数RMi,包含安全奖励R1i和效率奖励R2i;
其中,fT为最大径向接触力,DT为允许的最大插入步长,fri是执行第i次动作后的径向接触力,dzi为第i次动作后沿ZW轴方向的调整运动量,R1i表示第i次动作后的安全奖励,R2i表示第i次动作后的效率奖励,R1(i-1)为第i-1次动作的安全奖励;
步骤A730,基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配,并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
在本实施例中,步骤A730中,所述将位姿对准后的第一微零件和第二微零件进行装配,还包括,建立仿真环境与实际精密装配装置之间的联系,在仿真环境中进行基于强化学习的装配模型的训练,使仿真环境中的受力状态与实际环境一致,具体方法为:
计算所述力的雅可比矩阵JF的逆矩阵JX,表示受力与相对运动之间的关系,用于设置仿真环境的受力状态。
通过将仿真环境的受力状态设置为与实际环境一致,通过本发明提出的方法获得的基于强化学习的装配模型可以无障碍地直接运用于实际环境中的微零件精密装配任务。
利用基于显微视觉系统的方法,如文献:S.Liu,D.Xu,D.P.Zhang and Z.T.Zhang,“High precision automatic assembly based on microscopic vision and forceinformation”,IEEE Transactions on Automation Science and Engineering,vol.13,no.1,pp.382-393,2016.的方法将微零件进行位姿对准,然后利用在仿真环境中训练好的模型,完成在实际精密装配系统中的装配任务,装配过程的接触力变化如图4和图5所示,运动量变化如图6所示,运动轨迹如图7所示。
本发明第二实施例的基于强化学习的微零件精密装配装置,用于实现上述步骤S100-步骤S300的装配方法,如图3所示,包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机;
所述显微视觉系统,包括3路显微相机,光轴方向近似正交,用于采集第一微零件和第二微零件的图像,实施位姿对准;
所述调整平台,设置于显微视觉系统可观测范围内,具有3个旋转自由度和1个平移自由度,用于设置第一微零件;还用于设置力传感器,所述力传感器用于提供第一微零件和第二微零件的接触力信息;
所述操作手,设置于显微视觉系统可观测范围内,具有3个平移自由度,用于设置第二微零件;
所述计算机,通过视觉连接线与显微视觉系统连接;还通过控制连接线与调整平台和操作手连接;用于接收所述显微视觉系统采集的显微视觉图像,还用于接收所述力传感器采集到的接触力信息,并控制实现第一微零件和第二微零件的位姿对准和精密装配。
所述的显微视觉系统由2台GC2450相机和1台PointGray相机组成;计算机采用Intel Core2 DUO处理器;所述的第二微零件是双轴零件,每个轴直径1mm,长度5mm;所述的第一微零件是带有多孔的面包电路板。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明的第三实施例,提供一种基于强化学习的微零件精密装配系统,包括:信息采集模块、微零件位姿对准模块和微零件装配模块;
所述信息采集模块,配置为实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
所述微零件位姿对准模块,配置为基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
所述微零件装配模块,基于力传感信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
需要说明的是,上述实施例提供的基于强化学习的微零件精密装配系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第四实施例的一种设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于强化学习的微零件精密装配方法。
本发明第五实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于强化学习的微零件精密装配方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (6)
1.一种基于强化学习的微零件精密装配方法,应用于微零件精密装配装置,所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机,其特征在于,所述方法包括:
步骤S100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤S200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤S300,基于所述力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
所述基于强化学习的装配模型,其获得方法为:
步骤A100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息,
步骤A200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤A300,基于所述力传感器信息,通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵;
步骤A400,基于所述力的雅可比矩阵获取专家动作ae;
所述专家动作ae为:
ae=[dex,dey,dez]
其中,dex表示沿着XW轴的调整运动量,dey表示沿着YW轴的调整运动量,dez表示沿着ZW轴的插入步长;
所述dex和dey为:
其中,JF∈R2×2是力的雅可比矩阵,β∈(0,1),fx和fy表示沿着XW轴和沿着YW轴接触力;
步骤A500,通过强化学习框架,获取改进动作ar;
所述强化学习框架包括评估网络和动作网络;
所述评估网络,通过在仿真环境中最大化目标函数J(θμ)更新评估网络的网络参数θμ训练强化学习框架:
J(θμ)=E[Q(si,μ(si|θμ))]
其中,J(θμ)表示目标函数,E表示数学期望,Q表示动作值,si=[fx,fy,fz,pz]T表示第i个样本的状态,其中fx,fy,fz表示沿着Xf,Yf,Zf轴方向的接触力,pz表示当前沿着ZW轴方向的插入深度;
所述动作网络,通过在仿真环境中最小化损失函数L更新动作网络的网络参数θQ训练强化学习框架:
其中,n表示回合中的步数,si表示第i个样本的状态,yi表示动作值Q的目标值,ai=[dx,dy,dz]T表示装配动作,其中dx,dy,dz表示分别沿着XW、YW和ZW轴方向的调整运动量;
步骤A600,将所述专家动作ae和改进动作ar相加获得最终动作at;
步骤A700,基于所述最终动作at,通过回合-单步动态探索策略,将位姿对准后的第一微零件和第二微零件进行装配,得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件;
步骤A700包括:
步骤A710,向所述最终动作at添加高斯噪声,生成带噪声的动作af:
af=at+N(0,σaI)
其中,σa为标准差,N表示高斯噪声,I表示单位矩阵;
步骤A720,基于所述带噪声的动作af,通过重复进行回合-单步的动态探索,获得训练好的强化学习框架;
所述回合-单步的动态探索包括回合探索和单步探索;
所述回合探索,在每回合完成后更新标准差σa的数值,其方法为:
其中,ns为回合中的步数;σt1和σt2表示预设的阈值且σt1>σt2,RMi表示奖励函数;
所述单步探索,在回合中每一步动作后更新标准差σa的数值,其方法为:
根据安全-效率奖励函数更新标准差σa:
σa←σa-σbtanh(RM-Re)
其中,σb为预设的常数,且σa被限制在预设的范围[σmin,σmax]内;
所述安全-效率奖励函数RMi,包括安全奖励R1i和效率奖励R2i;
其中,fT为最大径向接触力,DT为允许的最大插入步长,fri是执行第i次动作后的径向接触力,dzi为第i次动作后沿ZW轴方向的调整运动量,R1i表示第i次动作后的安全奖励,R2i表示第i次动作后的效率奖励,R1(i-1)为第i-1次动作的安全奖励;
步骤A730,基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配,并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
2.根据权利要求1所述的基于强化学习的微零件精密装配方法,其特征在于,步骤A730中,将位姿对准后的第一微零件和第二微零件进行装配,还包括,建立仿真环境与实际精密装配装置之间的联系,在仿真环境中进行基于强化学习的装配模型的训练,使仿真环境中的受力状态与实际环境一致,具体方法为:
计算所述力的雅可比矩阵JF的逆矩阵JX,表示受力与相对运动之间的关系,用于设置仿真环境的受力状态。
3.一种基于强化学习的微零件精密装配装置,其特征在于,用于实现如权利要求1或2任一项所述装配方法;
所述装配设备包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在调整平台上的第一微零件、设置在操作手上的第二微零件、控制线和计算机;
所述显微视觉系统,包括3路显微相机,光轴方向近似正交,用于采集第一微零件和第二微零件的图像,实施位姿对准;
所述调整平台,设置于显微视觉系统可观测范围内,具有3个旋转自由度和1个平移自由度,用于设置第一微零件;还用于设置力传感器,所述力传感器用于提供第一微零件和第二微零件的接触力信息;
所述操作手,设置于显微视觉系统可观测范围内,具有3个平移自由度,用于设置第二微零件;
所述计算机,通过视觉连接线与显微视觉系统连接;还通过控制连接线与调整平台和操作手连接;用于接收所述显微视觉系统采集的显微视觉图像,还用于接收所述力传感器采集到的接触力信息,并控制实现第一微零件和第二微零件的位姿对准和精密装配。
4.一种基于强化学习的微零件精密装配系统,应用于微零件精密装配装置,所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机,其特征在于,所述系统包括:信息采集模块、微零件位姿对准模块和微零件装配模块;
所述信息采集模块,配置为实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
所述微零件位姿对准模块,配置为基于第一微零件的显微视觉图像、第二微零件的显微视觉图像完成第一微零件和第二微零件位姿对准;
所述微零件装配模块,基于力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
所述基于强化学习的装配模型,其获得方法为:
步骤A100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息,
步骤A200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤A300,基于所述力传感器信息,通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵;
步骤A400,基于所述力的雅可比矩阵获取专家动作ae;
所述专家动作ae为:
ae=[dex,dey,dez]
其中,dex表示沿着XW轴的调整运动量,dey表示沿着YW轴的调整运动量,dez表示沿着ZW轴的插入步长;
所述dex和dey为:
其中,JF∈R2×2是力的雅可比矩阵,β∈(0,1),fx和fy表示沿着XW轴和沿着YW轴接触力;
步骤A500,通过强化学习框架,获取改进动作ar;
所述强化学习框架包括评估网络和动作网络;
所述评估网络,通过在仿真环境中最大化目标函数J(θμ)更新评估网络的网络参数θμ训练强化学习框架:
J(θμ)=E[Q(si,μ(si|θμ))]
其中,J(θμ)表示目标函数,E表示数学期望,Q表示动作值,si=[fx,fy,fz,pz]T表示第i个样本的状态,其中fx,fy,fz表示沿着Xf,Yf,Zf轴方向的接触力,pz表示当前沿着ZW轴方向的插入深度;
所述动作网络,通过在仿真环境中最小化损失函数L更新动作网络的网络参数θQ训练强化学习框架:
其中,n表示回合中的步数,si表示第i个样本的状态,yi表示动作值Q的目标值,ai=[dx,dy,dz]T表示装配动作,其中dx,dy,dz表示分别沿着XW、YW和ZW轴方向的调整运动量;
步骤A600,将所述专家动作ae和改进动作ar相加获得最终动作at;
步骤A700,基于所述最终动作at,通过回合-单步动态探索策略,将位姿对准后的第一微零件和第二微零件进行装配,得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件;
步骤A700包括:
步骤A710,向所述最终动作at添加高斯噪声,生成带噪声的动作af:
af=at+N(0,σaI)
其中,σa为标准差,N表示高斯噪声,I表示单位矩阵;
步骤A720,基于所述带噪声的动作af,通过重复进行回合-单步的动态探索,获得训练好的强化学习框架;
所述回合-单步的动态探索包括回合探索和单步探索;
所述回合探索,在每回合完成后更新标准差σa的数值,其方法为:
其中,ns为回合中的步数;σt1和σt2表示预设的阈值且σt1>σt2,RMi表示奖励函数;
所述单步探索,在回合中每一步动作后更新标准差σa的数值,其方法为:
根据安全-效率奖励函数更新标准差σa:
σa←σa-σbtanh(RM-Re)
其中,σb为预设的常数,且σa被限制在预设的范围[σmin,σmax]内;
所述安全-效率奖励函数RMi,包括安全奖励R1i和效率奖励R2i;
其中,fT为最大径向接触力,DT为允许的最大插入步长,fri是执行第i次动作后的径向接触力,dzi为第i次动作后沿ZW轴方向的调整运动量,R1i表示第i次动作后的安全奖励,R2i表示第i次动作后的效率奖励,R1(i-1)为第i-1次动作的安全奖励;
步骤A730,基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配,并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
5.一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-2任一项所述的基于强化学习的微零件精密装配方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-2任一项所述的基于强化学习的微零件精密装配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110137780.4A CN112965372B (zh) | 2021-02-01 | 2021-02-01 | 基于强化学习的微零件精密装配方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110137780.4A CN112965372B (zh) | 2021-02-01 | 2021-02-01 | 基于强化学习的微零件精密装配方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112965372A CN112965372A (zh) | 2021-06-15 |
CN112965372B true CN112965372B (zh) | 2022-04-01 |
Family
ID=76272954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110137780.4A Active CN112965372B (zh) | 2021-02-01 | 2021-02-01 | 基于强化学习的微零件精密装配方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112965372B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113747682B (zh) * | 2021-09-07 | 2023-09-12 | 山东大学 | 一种机器人精密装配系统及方法 |
CN114722611B (zh) * | 2022-04-15 | 2023-08-08 | 镇江西门子母线有限公司 | 一种密集型母线槽的装配参数自适应优化方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241296A (zh) * | 2016-12-26 | 2018-07-03 | 发那科株式会社 | 学习组装动作的机器学习装置以及部件组装系统 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103386598B (zh) * | 2013-07-12 | 2016-06-15 | 中国科学院自动化研究所 | 一种微零件自动对准和装配装置与方法 |
WO2019021058A2 (en) * | 2017-07-25 | 2019-01-31 | Mbl Limited | SYSTEMS AND METHODS FOR OPERATING A ROBOTIC SYSTEM AND EXECUTING ROBOTIC INTERACTIONS |
CN108161934B (zh) * | 2017-12-25 | 2020-06-09 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
US20200150643A1 (en) * | 2018-05-07 | 2020-05-14 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
CN108972557B (zh) * | 2018-08-16 | 2020-09-01 | 中国科学院自动化研究所 | 微零件位姿自动对准装置及其方法 |
US11100918B2 (en) * | 2018-08-27 | 2021-08-24 | American Family Mutual Insurance Company, S.I. | Event sensing system |
CN109543823B (zh) * | 2018-11-30 | 2020-09-25 | 山东大学 | 一种基于多模信息描述的柔性装配系统及方法 |
CN109816049B (zh) * | 2019-02-22 | 2020-09-18 | 青岛理工大学 | 一种基于深度学习的装配监测方法、设备及可读存储介质 |
CN111881772B (zh) * | 2020-07-06 | 2023-11-07 | 上海交通大学 | 基于深度强化学习的多机械臂协同装配方法和系统 |
-
2021
- 2021-02-01 CN CN202110137780.4A patent/CN112965372B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241296A (zh) * | 2016-12-26 | 2018-07-03 | 发那科株式会社 | 学习组装动作的机器学习装置以及部件组装系统 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112965372A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhardwaj et al. | Differentiable gaussian process motion planning | |
CN112965372B (zh) | 基于强化学习的微零件精密装配方法、装置和系统 | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
CN109807887B (zh) | 基于深度神经网络的柔性臂智能感知与控制方法和系统 | |
Vuković et al. | Trajectory learning and reproduction for differential drive mobile robots based on GMM/HMM and dynamic time warping using learning from demonstration framework | |
Gu et al. | Automated assembly skill acquisition and implementation through human demonstration | |
CN110463376B (zh) | 一种插机方法及插机设备 | |
CN113043275B (zh) | 基于专家演示和强化学习的微零件装配方法 | |
Leite et al. | Passivity‐based adaptive 3D visual servoing without depth and image velocity measurements for uncertain robot manipulators | |
Krüger et al. | Technologies for the fast set-up of automated assembly processes | |
Cheng et al. | Learning the inverse dynamics of robotic manipulators in structured reproducing kernel Hilbert space | |
Sloth et al. | Towards easy setup of robotic assembly tasks | |
Ali et al. | Modeling and controlling of quadrotor aerial vehicle equipped with a gripper | |
CN109764876B (zh) | 无人平台的多模态融合定位方法 | |
Saif et al. | Modelling of quad‐rotor dynamics and Hardware‐in‐the‐Loop simulation | |
Hu et al. | A robot learning from demonstration framework for skillful small parts assembly | |
US20220184808A1 (en) | Motion trajectory planning method for robotic manipulator, robotic manipulator and computer-readable storage medium | |
Liu et al. | Understanding multi-modal perception using behavioral cloning for peg-in-a-hole insertion tasks | |
Su et al. | A ROS based open source simulation environment for robotics beginners | |
Zhang et al. | Subtask-learning based for robot self-assembly in flexible collaborative assembly in manufacturing | |
Serhat | Development stages of a semi-autonomous underwater vehicle experiment platform | |
CN117103277A (zh) | 一种基于多模态数据融合的机械手臂感知方法 | |
Borisov et al. | Manipulation tasks in robotics education | |
Fang et al. | Quadrotor navigation in dynamic environments with deep reinforcement learning | |
Liu et al. | Noncooperative target detection of spacecraft objects based on artificial bee colony algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |