CN115390439A - 一种基于残差强化学习的机器人自主化装配方法 - Google Patents

一种基于残差强化学习的机器人自主化装配方法 Download PDF

Info

Publication number
CN115390439A
CN115390439A CN202210999879.XA CN202210999879A CN115390439A CN 115390439 A CN115390439 A CN 115390439A CN 202210999879 A CN202210999879 A CN 202210999879A CN 115390439 A CN115390439 A CN 115390439A
Authority
CN
China
Prior art keywords
robot
reinforcement learning
assembly
strategy
force
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210999879.XA
Other languages
English (en)
Inventor
刘乃龙
谢心如
刘昊
黄煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202210999879.XA priority Critical patent/CN115390439A/zh
Publication of CN115390439A publication Critical patent/CN115390439A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于残差强化学习的机器人自主化装配方法,步骤包括:根据机器人装配过程中的状态st定义笛卡尔空间控制指令;在机器人末端与装配表面接近阶段设置k1=0;当Fext>Fmax时,机器人与装配表面发生了第一次接触;判断待装配物体是否进入到装配孔位;进入插入阶段,设置k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,装配成功。本发明针对装配过程中的接近、搜索、插入三个阶段,分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配。

Description

一种基于残差强化学习的机器人自主化装配方法
技术领域
本发明涉及一种基于残差强化学习的机器人自主化装配方法,属于智能操控技术领域。
背景技术
机器人自主装配是智能制造中的重要组成部分,一直是研究的热点。以往的方法大多依赖于装配件的几何参数和姿态信息等先验知识,而这些先验知识在非结构化环境中将难以估计。结合视觉和触觉的互补信息,人类可以毫不费力地完成几乎所有与环境交互的操作任务。然而,在非结构化和不断变化的环境中,精细化的机器人操作如装配仍然面临着巨大的挑战。主要原因在于机器人难以利用传统的视觉方法完成对待装配物体的精确定位以及机器人与环境接触时需要考虑力的因素。
强化学习被认为最有可能赋予机器人类似人一样的能力,机器人可以通过与环境的交互从多种传感器观察中学习复杂的技能。目前,针对装配任务,大部分工作只考虑了单一的力觉信息或者视觉信息,并且都是在结构化的环境中,已知待装配物体的几何信息等先验知识。也有一部分工作尝试将视觉和力觉以及机器人本体信息等融合起来,学习形成一个多模态的先验空间,然后再利用强化学习去学习装配技能,这种方法需要大量人为设计的机器人路径,工作量大且繁琐。
此外,大多数基于梯度的强化学习算法样本效率低,数据需求量大,训练时间长。因此大部分基于强化学习的工作都是在仿真中验证,并没有部署到实际机器人硬件上执行。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种基于残差强化学习的机器人自主化装配方法,对装配过程中的接近、搜索、插入三个阶段分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配。
本发明解决技术的方案是:
一种基于残差强化学习的机器人自主化装配方法,步骤如下:
(1)根据机器人装配过程中的状态st定义笛卡尔空间控制指令;
(2)在机器人末端与装配表面接近阶段:设置k1=0,机器人的笛卡尔运动增量由视觉策略πθ(st)决定;
(3)当Fext>Fmax时,机器人与装配表面发生了第一次接触,机器人状态由接近切换到搜索;通过深度强化学习策略πθ和解析力控策略πH共同作用,来最大化自定义的奖励rt,策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,其中深度强化学习策略πθ的输出为uRL,解析力控策略πH的输出为uH
(4)判断是否切换到插入阶段,即判断待装配物体是否进入到装配孔位:当条件|z-z0|<h和外力Fext<∈两者同时满足时,则由搜索阶段进入到插入阶段;
其中,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度,∈为一个小量;
(5)进入插入阶段,设置k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,装配成功。
进一步的,深度强化学习策略πθ的在线训练,采用的训练算法为PPO,在训练中给输出命令和训练参数加入了高斯噪声,噪声可以表示为
Figure BDA0003806894000000021
μ为均值,σ为方差,在训练中,依据装配任务的特点设置奖励函数,可以表示为
Figure BDA0003806894000000031
其中,R,S,I,C和F分别表示为接近、搜索、插入、完成和失败,dt、vt表示位移和旋转增量,下标R和S分别表示每个阶段的初始时刻装配轴和孔的距离,kd和kS为比例因子。
进一步的,机器人与环境的状态集合st包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,机器人待装配的轴孔零件包含在手眼相机的深度图像中。
进一步的,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个恒力Fd,恒力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数。
进一步的,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制。
进一步的,控制率表示为
Figure BDA0003806894000000032
进一步的,将该控制率进行离散化用于程序控制
Figure BDA0003806894000000033
Figure BDA0003806894000000034
Figure BDA0003806894000000035
其中,M,B,K为机器人运动中期望的质量,阻尼和刚度,Δt为控制周期。
进一步的,
Figure BDA0003806894000000036
为路径跟踪阻抗误差。
进一步的,步骤(1)中,笛卡尔空间控制指令xu=k1πH(st)+k2πθ(st),其中πθ为深度强化学习策略,πH为解析力控策略,k1,k2∈[0,1]为比例系数。
进一步的,步骤(2)中,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。
本发明与现有技术相比的有益效果是:
(1)本发明针对装配过程中的接近、搜索、插入三个阶段,分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配;
(2)本发明方法无需预先知道装配物体的几何知识,也不需要人为搜集训练数据集,并且所提出的装配方法样本效率高,训练时间短,对未知物体的泛化能力强。
附图说明
图1为本发明残差强化学习框架图;
图2为结合视觉和力觉的端到端训练流程框图;
图3为力控算法流程。
具体实施方式
下面结合实施例对本发明作进一步阐述。
一、基于视觉和解析力控方法的残差强化学习框架
首先获取机器人与环境的状态集合st,包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,手眼相机的视野包括了机器人待装配的轴孔零件。残差强化学习策略包含了三部分,分别为用户根据任务特点自定义的奖励函数,深度强化学习策略πθ和解析力控策略πH。深度强化学习策略πθ和解析力控策略πH共同作用来最大化定义的奖励rt,可以表示为
xu=k1πH(st)+k2πθ(st)
xu是机器人的笛卡尔空间控制指令,k1,k2∈[0,1]为比例系数。残差强化学习的流程示意图如图1所示。
二、根据状态识别的分阶段装配策略
如图2所示,本发明的根据状态识别的分阶段装配策略,本发明将装配过程分为了三个阶段进行,分别表示为接近,搜索和插入。包括如下步骤:
(1)接近阶段
在接近阶段中,由于机器人末端与环境并没有接触,所以设置k1=0,机器人的笛卡尔运动增量是由视觉策略πθ(st)决定,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。其中,所述特征提取卷积神经网络是由5个卷积层组成,输入图像大小被裁剪为3×240×320,从前往后,卷积核大小依次为8×8,4×4,3×3,2×2和2×2,卷积核移动的步长依次为4,2,2,1,1,每层卷积后面都跟有ReLU激活函数,在卷积层的末尾带有一层全连接层,最终输出1×512的特征向量。该特征向量在本发明中表示为装配体之间的相对位置关系。本发明中的强化学习决策网络采用通用的动作网络和评价网络组成的学习架构,不再赘述。
(2)搜索阶段
接近和搜索之间以外力的状态识别为分界点,当Fext>Fmax时,认为是机器人与装配表面发生了第一次接触,然后机器人状态由接近切换到搜索。
在搜索阶段,机器人末端的装配轴与装配孔表面接触,此时深度强化学习策略πθ和解析力控策略πH共同作用来最大化定义的奖励rt,策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,在本发明中,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个恒力Fd,恒力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制,控制率表示为
Figure BDA0003806894000000051
进一步我们将该控制率进行离散化用于程序控制
Figure BDA0003806894000000061
Figure BDA0003806894000000062
Figure BDA0003806894000000063
其中,M,B,K为机器人运动中期望的质量,阻尼和刚度。Δt为控制周期,
Figure BDA0003806894000000064
为路径跟踪阻抗误差。该策略不仅能够精确的跟踪视觉策略产生的机器人末端运动增量,而且也可以对外界的扰动做出柔顺行为,有效的保护了机器人的安全。在接近和搜索阶段中,机器人主要完成装配轴和装配孔的接触和对齐。
(3)插入阶段
第二步搜索和第三步插入的状态识别条件是,|z-z0|<h和外力Fext<∈两者需要同时满足才能进行装配状态的切换,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度。∈为一个小量。在第三阶段中,k2=0,机器人进行插入操作,当外力检测到Fext>Fd/2时,装配成功。
三、基于解析法的力控制算法
解析力控策略中:本发明设计的基于解析法的力控制算法框图如图3所示。本发明将显式力控制和导纳控制以平行力位框架相结合,有效了实现了机器人快速高效的搜索,同时保证了机器人训练和部署中的安全性。在框图中
S=diag(s1,s2…s6),s∈{0,1}
为选择矩阵,diag表示将向量(s1,s2…s6)转为对角矩阵。在本发明中,装配轴是由安装在机器人末端的夹爪所夹持,6轴的力/力矩传感器安装在机器人与夹爪之间,所以装配轴和装配孔之间的交互力要经过中值滤波进行噪声处理,死区进行漂移处理,重力补偿排除夹爪重力的影响。
在本发明中,深度强化学习策略中的动作空间定义为A=[Δx,Δy,Δz,Δαx,Δαy,Δαz],分别为笛卡尔空间的位移增量和旋转增量,观测空间为手眼相机的图片
Figure BDA0003806894000000071
力控制的反馈量为Fext=[Fx,Fy,Fz,Mx,My,Mz]。机器人笛卡尔空间用一个6维光滑的流形表示
Figure BDA0003806894000000075
进一步表示为一个6维的向量为
Figure BDA0003806894000000072
其中
Figure BDA0003806894000000073
为位移增量,
Figure BDA0003806894000000074
u和θ分别为旋转轴和旋转角。
四、残差强化学习训练算法
将残差强化学习训练算法更为细致地总结如下:
(1)初始化策略πθ和πH
(2)对于每一个Episode;
(3)获取状态st
(4)计算强化学习策略uRL~πθ(ut|st);
(5)计算残差强化学习策略ut=uRL+uH
(6)机器人执行ut,以优先级pi存储(St-1,At-1,Rtt,St);
(7)采用优先级批采样状态;
(8)更新优先级存储器;
(9)优化强化学习策略πθ
本发明为了能让残差强化学习策略在机器人上安全高效地执行,我们同时提出了安全训练机制。叙述如下:
(1)获取参数Tmax,Tone,Fmax,vmax,accmax,amax,vmax
(2)在最大训练步数Tmax内;
(3)获取初始状态s0
(4)在连续最大探索步数Tone内;
(5)获取初始状态st
(6)计算强化学习策略uRL~πθ(ut|st);
(7)获取当前外力Fext、积分加速度acc与速度v;
(8)获取积分加速度的2范数accnorm与速度的2范数vnorm
(9)如果accnorm>accmax,则acc*=|accmax/accnorm|;
(10)如果υnorm>υmax,则υ*=|υmaxnorm|;
(11)计算残差策略ut=uRL+uH
(12)如果|ut-x|/Δt>νmax,则进行笛卡尔空间位姿插值Li(ut)~νmax
(13)机器人执行ut
(14)如果Fext>Fmax或者a>amax或者T>Tone-1;
(15)复位机器人;
(16)循环整个流程直到结束。
其中,Tmax,Tone,Fmax,vmax,accmax,amax,vmax分别为总时间步长,一次连续探索的最大时间步长,最大接触力、最大积分速度、最大积分加速度、最大策略动作增量和最大笛卡尔速度。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (10)

1.一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤如下:
(1)根据机器人装配过程中的状态st定义笛卡尔空间控制指令;
(2)在机器人末端与装配表面接近阶段:设置比例系数k1=0,机器人的笛卡尔运动增量由深度强化学习策略πθ决定;
(3)当机器人末端的外力Fext>Fmax时,Fmax为外力允许的最大值,机器人与装配表面发生了第一次接触,机器人状态由接近切换到搜索;通过深度强化学习策略πθ和解析力控策略πH共同作用,来最大化自定义的奖励rt,深度强化学习策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,其中深度强化学习策略πθ的输出为uRL,解析力控策略πH的输出为uH
(4)判断是否切换到插入阶段,即判断待装配物体是否进入到装配孔位:当条件|z-z0|<h和外力Fext<∈两者同时满足时,则由搜索阶段进入到插入阶段;
其中,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度,∈为一个小量;
(5)进入插入阶段,设置比例系数k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,Fd为期望的外力,则装配成功。
2.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,深度强化学习策略πθ的在线训练,采用的训练算法为PPO,在训练中给输出命令和训练参数加入了高斯噪声,噪声可以表示为
Figure FDA0003806893990000011
μ为均值,σ为方差,在训练中,依据装配任务的特点设置奖励函数,可以表示为
Figure FDA0003806893990000021
其中,R,S,I,C和F分别表示为接近、搜索、插入、完成和失败,dt、vt表示位移和旋转增量,下标R和S分别表示每个阶段的初始时刻装配轴和孔的距离,kd和kS为比例因子。
3.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,机器人与环境的状态集合st包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,机器人待装配的轴孔零件包含在手眼相机的深度图像中。
4.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个期望的外力Fd,期望的外力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数。
5.根据权利要求4所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制。
6.根据权利要求4所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,控制率表示为
Figure FDA0003806893990000022
其中,xe为路径跟踪阻抗误差,
Figure FDA0003806893990000023
为xe的一阶导数,
Figure FDA0003806893990000024
为xe的二阶导数。
7.根据权利要求6所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,将该控制率进行离散化用于程序控制
Figure FDA0003806893990000025
Figure FDA0003806893990000031
Figure FDA0003806893990000032
其中,M,B,K分别为机器人运动中期望的质量、阻尼和刚度,
Figure FDA0003806893990000033
为t时刻的xe,Δt为控制周期。
8.根据权利要求7所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,路径跟踪阻抗误差
Figure FDA0003806893990000034
其中,xp为机器人的末端位置。
9.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤(1)中,笛卡尔空间控制指令xu=k1πH+k2πθ,其中πθ为深度强化学习策略,πH为解析力控策略,k1,k2∈[0,1]为比例系数。
10.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤(2)中,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。
CN202210999879.XA 2022-08-19 2022-08-19 一种基于残差强化学习的机器人自主化装配方法 Pending CN115390439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210999879.XA CN115390439A (zh) 2022-08-19 2022-08-19 一种基于残差强化学习的机器人自主化装配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210999879.XA CN115390439A (zh) 2022-08-19 2022-08-19 一种基于残差强化学习的机器人自主化装配方法

Publications (1)

Publication Number Publication Date
CN115390439A true CN115390439A (zh) 2022-11-25

Family

ID=84120228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210999879.XA Pending CN115390439A (zh) 2022-08-19 2022-08-19 一种基于残差强化学习的机器人自主化装配方法

Country Status (1)

Country Link
CN (1) CN115390439A (zh)

Similar Documents

Publication Publication Date Title
Patel et al. Sensor modality fusion with CNNs for UGV autonomous driving in indoor environments
Xu et al. Underwater dynamic visual servoing for a soft robot arm with online distortion correction
Racca et al. Learning in-contact control strategies from demonstration
US8280837B2 (en) Contact state estimation for multi-finger robot hands using particle filters
Freda et al. Vision-based interception of a moving target with a nonholonomic mobile robot
KR102213061B1 (ko) 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치
JP2019508273A (ja) ロボットの把持のための深層機械学習方法および装置
JP2022542239A (ja) 視角エンベディングに基づいた自律タスク実行
US7664571B2 (en) Controlling a robot using pose
Gao et al. Contextual task-aware shared autonomy for assistive mobile robot teleoperation
Lambert et al. Joint inference of kinematic and force trajectories with visuo-tactile sensing
Al-Dahhan et al. Path tracking control of a mobile robot using fuzzy logic
Hoffmann et al. Adaptive robotic tool use under variable grasps
US20240001553A1 (en) Robotic arm control method, robot and it’s controller
Ewerton et al. Incremental imitation learning of context-dependent motor skills
Shi et al. Proactive action visual residual reinforcement learning for contact-rich tasks using a torque-controlled robot
Prats et al. Vision-tactile-force integration and robot physical interaction
Inaba et al. Vision-based adaptive and interactive behaviors in mechanical animals using the remote-brained approach
Joshi et al. Reactive navigation of autonomous mobile robot using neuro-fuzzy system
Zhou et al. Robot Manipulator Visual Servoing via Kalman Filter-Optimized Extreme Learning Machine and Fuzzy Logic.
US20230381970A1 (en) System(s) and method(s) of using imitation learning in training and refining robotic control policies
Morales et al. An experiment in the use of manipulation primitives and tactile perception for reactive grasping
US11436869B1 (en) Engagement detection and attention estimation for human-robot interaction
CN115390439A (zh) 一种基于残差强化学习的机器人自主化装配方法
Long et al. Robotic cutting of soft materials using force control & image moments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination