CN115390439A - 一种基于残差强化学习的机器人自主化装配方法 - Google Patents
一种基于残差强化学习的机器人自主化装配方法 Download PDFInfo
- Publication number
- CN115390439A CN115390439A CN202210999879.XA CN202210999879A CN115390439A CN 115390439 A CN115390439 A CN 115390439A CN 202210999879 A CN202210999879 A CN 202210999879A CN 115390439 A CN115390439 A CN 115390439A
- Authority
- CN
- China
- Prior art keywords
- robot
- reinforcement learning
- assembly
- strategy
- force
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种基于残差强化学习的机器人自主化装配方法,步骤包括:根据机器人装配过程中的状态st定义笛卡尔空间控制指令;在机器人末端与装配表面接近阶段设置k1=0;当Fext>Fmax时,机器人与装配表面发生了第一次接触;判断待装配物体是否进入到装配孔位;进入插入阶段,设置k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,装配成功。本发明针对装配过程中的接近、搜索、插入三个阶段,分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配。
Description
技术领域
本发明涉及一种基于残差强化学习的机器人自主化装配方法,属于智能操控技术领域。
背景技术
机器人自主装配是智能制造中的重要组成部分,一直是研究的热点。以往的方法大多依赖于装配件的几何参数和姿态信息等先验知识,而这些先验知识在非结构化环境中将难以估计。结合视觉和触觉的互补信息,人类可以毫不费力地完成几乎所有与环境交互的操作任务。然而,在非结构化和不断变化的环境中,精细化的机器人操作如装配仍然面临着巨大的挑战。主要原因在于机器人难以利用传统的视觉方法完成对待装配物体的精确定位以及机器人与环境接触时需要考虑力的因素。
强化学习被认为最有可能赋予机器人类似人一样的能力,机器人可以通过与环境的交互从多种传感器观察中学习复杂的技能。目前,针对装配任务,大部分工作只考虑了单一的力觉信息或者视觉信息,并且都是在结构化的环境中,已知待装配物体的几何信息等先验知识。也有一部分工作尝试将视觉和力觉以及机器人本体信息等融合起来,学习形成一个多模态的先验空间,然后再利用强化学习去学习装配技能,这种方法需要大量人为设计的机器人路径,工作量大且繁琐。
此外,大多数基于梯度的强化学习算法样本效率低,数据需求量大,训练时间长。因此大部分基于强化学习的工作都是在仿真中验证,并没有部署到实际机器人硬件上执行。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种基于残差强化学习的机器人自主化装配方法,对装配过程中的接近、搜索、插入三个阶段分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配。
本发明解决技术的方案是:
一种基于残差强化学习的机器人自主化装配方法,步骤如下:
(1)根据机器人装配过程中的状态st定义笛卡尔空间控制指令;
(2)在机器人末端与装配表面接近阶段:设置k1=0,机器人的笛卡尔运动增量由视觉策略πθ(st)决定;
(3)当Fext>Fmax时,机器人与装配表面发生了第一次接触,机器人状态由接近切换到搜索;通过深度强化学习策略πθ和解析力控策略πH共同作用,来最大化自定义的奖励rt,策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,其中深度强化学习策略πθ的输出为uRL,解析力控策略πH的输出为uH;
(4)判断是否切换到插入阶段,即判断待装配物体是否进入到装配孔位:当条件|z-z0|<h和外力Fext<∈两者同时满足时,则由搜索阶段进入到插入阶段;
其中,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度,∈为一个小量;
(5)进入插入阶段,设置k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,装配成功。
其中,R,S,I,C和F分别表示为接近、搜索、插入、完成和失败,dt、vt表示位移和旋转增量,下标R和S分别表示每个阶段的初始时刻装配轴和孔的距离,kd和kS为比例因子。
进一步的,机器人与环境的状态集合st包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,机器人待装配的轴孔零件包含在手眼相机的深度图像中。
进一步的,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个恒力Fd,恒力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数。
进一步的,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制。
进一步的,控制率表示为
进一步的,将该控制率进行离散化用于程序控制
其中,M,B,K为机器人运动中期望的质量,阻尼和刚度,Δt为控制周期。
进一步的,步骤(1)中,笛卡尔空间控制指令xu=k1πH(st)+k2πθ(st),其中πθ为深度强化学习策略,πH为解析力控策略,k1,k2∈[0,1]为比例系数。
进一步的,步骤(2)中,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。
本发明与现有技术相比的有益效果是:
(1)本发明针对装配过程中的接近、搜索、插入三个阶段,分别设计相应的装配策略,使用基于视觉和力觉感知融合的残差强化学习方法和基于解析方法的力控制策略,实现端到端的机器人自学习装配;
(2)本发明方法无需预先知道装配物体的几何知识,也不需要人为搜集训练数据集,并且所提出的装配方法样本效率高,训练时间短,对未知物体的泛化能力强。
附图说明
图1为本发明残差强化学习框架图;
图2为结合视觉和力觉的端到端训练流程框图;
图3为力控算法流程。
具体实施方式
下面结合实施例对本发明作进一步阐述。
一、基于视觉和解析力控方法的残差强化学习框架
首先获取机器人与环境的状态集合st,包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,手眼相机的视野包括了机器人待装配的轴孔零件。残差强化学习策略包含了三部分,分别为用户根据任务特点自定义的奖励函数,深度强化学习策略πθ和解析力控策略πH。深度强化学习策略πθ和解析力控策略πH共同作用来最大化定义的奖励rt,可以表示为
xu=k1πH(st)+k2πθ(st)
xu是机器人的笛卡尔空间控制指令,k1,k2∈[0,1]为比例系数。残差强化学习的流程示意图如图1所示。
二、根据状态识别的分阶段装配策略
如图2所示,本发明的根据状态识别的分阶段装配策略,本发明将装配过程分为了三个阶段进行,分别表示为接近,搜索和插入。包括如下步骤:
(1)接近阶段
在接近阶段中,由于机器人末端与环境并没有接触,所以设置k1=0,机器人的笛卡尔运动增量是由视觉策略πθ(st)决定,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。其中,所述特征提取卷积神经网络是由5个卷积层组成,输入图像大小被裁剪为3×240×320,从前往后,卷积核大小依次为8×8,4×4,3×3,2×2和2×2,卷积核移动的步长依次为4,2,2,1,1,每层卷积后面都跟有ReLU激活函数,在卷积层的末尾带有一层全连接层,最终输出1×512的特征向量。该特征向量在本发明中表示为装配体之间的相对位置关系。本发明中的强化学习决策网络采用通用的动作网络和评价网络组成的学习架构,不再赘述。
(2)搜索阶段
接近和搜索之间以外力的状态识别为分界点,当Fext>Fmax时,认为是机器人与装配表面发生了第一次接触,然后机器人状态由接近切换到搜索。
在搜索阶段,机器人末端的装配轴与装配孔表面接触,此时深度强化学习策略πθ和解析力控策略πH共同作用来最大化定义的奖励rt,策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,在本发明中,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个恒力Fd,恒力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制,控制率表示为
进一步我们将该控制率进行离散化用于程序控制
其中,M,B,K为机器人运动中期望的质量,阻尼和刚度。Δt为控制周期,为路径跟踪阻抗误差。该策略不仅能够精确的跟踪视觉策略产生的机器人末端运动增量,而且也可以对外界的扰动做出柔顺行为,有效的保护了机器人的安全。在接近和搜索阶段中,机器人主要完成装配轴和装配孔的接触和对齐。
(3)插入阶段
第二步搜索和第三步插入的状态识别条件是,|z-z0|<h和外力Fext<∈两者需要同时满足才能进行装配状态的切换,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度。∈为一个小量。在第三阶段中,k2=0,机器人进行插入操作,当外力检测到Fext>Fd/2时,装配成功。
三、基于解析法的力控制算法
解析力控策略中:本发明设计的基于解析法的力控制算法框图如图3所示。本发明将显式力控制和导纳控制以平行力位框架相结合,有效了实现了机器人快速高效的搜索,同时保证了机器人训练和部署中的安全性。在框图中
S=diag(s1,s2…s6),s∈{0,1}
为选择矩阵,diag表示将向量(s1,s2…s6)转为对角矩阵。在本发明中,装配轴是由安装在机器人末端的夹爪所夹持,6轴的力/力矩传感器安装在机器人与夹爪之间,所以装配轴和装配孔之间的交互力要经过中值滤波进行噪声处理,死区进行漂移处理,重力补偿排除夹爪重力的影响。
在本发明中,深度强化学习策略中的动作空间定义为A=[Δx,Δy,Δz,Δαx,Δαy,Δαz],分别为笛卡尔空间的位移增量和旋转增量,观测空间为手眼相机的图片力控制的反馈量为Fext=[Fx,Fy,Fz,Mx,My,Mz]。机器人笛卡尔空间用一个6维光滑的流形表示进一步表示为一个6维的向量为其中为位移增量,u和θ分别为旋转轴和旋转角。
四、残差强化学习训练算法
将残差强化学习训练算法更为细致地总结如下:
(1)初始化策略πθ和πH;
(2)对于每一个Episode;
(3)获取状态st;
(4)计算强化学习策略uRL~πθ(ut|st);
(5)计算残差强化学习策略ut=uRL+uH;
(6)机器人执行ut,以优先级pi存储(St-1,At-1,Rt,γt,St);
(7)采用优先级批采样状态;
(8)更新优先级存储器;
(9)优化强化学习策略πθ。
本发明为了能让残差强化学习策略在机器人上安全高效地执行,我们同时提出了安全训练机制。叙述如下:
(1)获取参数Tmax,Tone,Fmax,vmax,accmax,amax,vmax;
(2)在最大训练步数Tmax内;
(3)获取初始状态s0;
(4)在连续最大探索步数Tone内;
(5)获取初始状态st;
(6)计算强化学习策略uRL~πθ(ut|st);
(7)获取当前外力Fext、积分加速度acc与速度v;
(8)获取积分加速度的2范数accnorm与速度的2范数vnorm;
(9)如果accnorm>accmax,则acc*=|accmax/accnorm|;
(10)如果υnorm>υmax,则υ*=|υmax/υnorm|;
(11)计算残差策略ut=uRL+uH;
(12)如果|ut-x|/Δt>νmax,则进行笛卡尔空间位姿插值Li(ut)~νmax;
(13)机器人执行ut;
(14)如果Fext>Fmax或者a>amax或者T>Tone-1;
(15)复位机器人;
(16)循环整个流程直到结束。
其中,Tmax,Tone,Fmax,vmax,accmax,amax,vmax分别为总时间步长,一次连续探索的最大时间步长,最大接触力、最大积分速度、最大积分加速度、最大策略动作增量和最大笛卡尔速度。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (10)
1.一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤如下:
(1)根据机器人装配过程中的状态st定义笛卡尔空间控制指令;
(2)在机器人末端与装配表面接近阶段:设置比例系数k1=0,机器人的笛卡尔运动增量由深度强化学习策略πθ决定;
(3)当机器人末端的外力Fext>Fmax时,Fmax为外力允许的最大值,机器人与装配表面发生了第一次接触,机器人状态由接近切换到搜索;通过深度强化学习策略πθ和解析力控策略πH共同作用,来最大化自定义的奖励rt,深度强化学习策略πθ和接近阶段一致,依据图像来引导机器人运动,以最大化奖励,而策略πH负责机器人末端与环境的柔顺交互,其中深度强化学习策略πθ的输出为uRL,解析力控策略πH的输出为uH;
(4)判断是否切换到插入阶段,即判断待装配物体是否进入到装配孔位:当条件|z-z0|<h和外力Fext<∈两者同时满足时,则由搜索阶段进入到插入阶段;
其中,z表示机器人末端在z轴上的坐标,z0表示孔的底部在z轴方向的坐标,h表示孔的高度,∈为一个小量;
(5)进入插入阶段,设置比例系数k2=0,机器人执行插入操作,当检测到外力Fext>Fd/2时,Fd为期望的外力,则装配成功。
3.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,机器人与环境的状态集合st包括手眼相机的深度图像和安装在机器人末端的6轴力/力矩传感器,机器人待装配的轴孔零件包含在手眼相机的深度图像中。
4.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,在搜索阶段,机器人末端会给装配孔表面的法线方向施加一个期望的外力Fd,期望的外力的控制率为
Fu=Fd+kp·Fe+ki·∫Fedt,
其中kp,ki分别为比例和积分参数。
5.根据权利要求4所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,Fe=Fd-Fext为力的期望值与实际值的误差,其他方向采用动态导纳控制。
9.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤(1)中,笛卡尔空间控制指令xu=k1πH+k2πθ,其中πθ为深度强化学习策略,πH为解析力控策略,k1,k2∈[0,1]为比例系数。
10.根据权利要求1所述的一种基于残差强化学习的机器人自主化装配方法,其特征在于,步骤(2)中,视觉策略由两部分组成,分别是特征提取卷积神经网络和强化学习决策网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999879.XA CN115390439A (zh) | 2022-08-19 | 2022-08-19 | 一种基于残差强化学习的机器人自主化装配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999879.XA CN115390439A (zh) | 2022-08-19 | 2022-08-19 | 一种基于残差强化学习的机器人自主化装配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115390439A true CN115390439A (zh) | 2022-11-25 |
Family
ID=84120228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210999879.XA Pending CN115390439A (zh) | 2022-08-19 | 2022-08-19 | 一种基于残差强化学习的机器人自主化装配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115390439A (zh) |
-
2022
- 2022-08-19 CN CN202210999879.XA patent/CN115390439A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Patel et al. | Sensor modality fusion with CNNs for UGV autonomous driving in indoor environments | |
Xu et al. | Underwater dynamic visual servoing for a soft robot arm with online distortion correction | |
Racca et al. | Learning in-contact control strategies from demonstration | |
US8280837B2 (en) | Contact state estimation for multi-finger robot hands using particle filters | |
Freda et al. | Vision-based interception of a moving target with a nonholonomic mobile robot | |
KR102213061B1 (ko) | 로봇용 학습 프레임워크 설정방법 및 이를 수행하는 디지털 제어 장치 | |
JP2019508273A (ja) | ロボットの把持のための深層機械学習方法および装置 | |
JP2022542239A (ja) | 視角エンベディングに基づいた自律タスク実行 | |
US7664571B2 (en) | Controlling a robot using pose | |
Gao et al. | Contextual task-aware shared autonomy for assistive mobile robot teleoperation | |
Lambert et al. | Joint inference of kinematic and force trajectories with visuo-tactile sensing | |
Al-Dahhan et al. | Path tracking control of a mobile robot using fuzzy logic | |
Hoffmann et al. | Adaptive robotic tool use under variable grasps | |
US20240001553A1 (en) | Robotic arm control method, robot and it’s controller | |
Ewerton et al. | Incremental imitation learning of context-dependent motor skills | |
Shi et al. | Proactive action visual residual reinforcement learning for contact-rich tasks using a torque-controlled robot | |
Prats et al. | Vision-tactile-force integration and robot physical interaction | |
Inaba et al. | Vision-based adaptive and interactive behaviors in mechanical animals using the remote-brained approach | |
Joshi et al. | Reactive navigation of autonomous mobile robot using neuro-fuzzy system | |
Zhou et al. | Robot Manipulator Visual Servoing via Kalman Filter-Optimized Extreme Learning Machine and Fuzzy Logic. | |
US20230381970A1 (en) | System(s) and method(s) of using imitation learning in training and refining robotic control policies | |
Morales et al. | An experiment in the use of manipulation primitives and tactile perception for reactive grasping | |
US11436869B1 (en) | Engagement detection and attention estimation for human-robot interaction | |
CN115390439A (zh) | 一种基于残差强化学习的机器人自主化装配方法 | |
Long et al. | Robotic cutting of soft materials using force control & image moments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |