CN113977583B - 基于近端策略优化算法的机器人快速装配方法及系统 - Google Patents
基于近端策略优化算法的机器人快速装配方法及系统 Download PDFInfo
- Publication number
- CN113977583B CN113977583B CN202111353675.0A CN202111353675A CN113977583B CN 113977583 B CN113977583 B CN 113977583B CN 202111353675 A CN202111353675 A CN 202111353675A CN 113977583 B CN113977583 B CN 113977583B
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- network
- optimization algorithm
- assembly
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J18/00—Arms
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/007—Means or methods for designing or fabricating manipulators
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明提出了基于近端策略优化算法的机器人快速装配方法及系统,包括:力检测单元、机械臂及控制系统;所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。近端策略优化算法增强了数据的利用效率,不用设置学习率的大小,具有更好的样本复杂性和泛化能力。
Description
技术领域
本发明属于机器人装配技术领域,尤其涉及基于近端策略优化算法的机器人快速装配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在机器人装配操作中,由于装配模型复杂、环境多变,通常的装配策略并不准确且对不同装配环境的适应能力差。主要有两种方法进行机器人装配操作,基于模型的装配和基于无模型的装配。
基于模型的装配通过建立一个精确的环境接触模型进行机器人装配,但在实际的工业场景中,噪声干扰、环境多变、装配对象的形状复杂并存在异构型等因素导致建立一个精确的环境接触模型很难办到。
基于无接触的模型不依赖环境模型的建立,主要通过学习的方法对环境进行探索,得到一种精确的装配策略。一般的学习方法对学习率的要求很高,学习率过高或过低都会导致训练失败,并且奖励函数的设立也对环境的变化十分敏感,设计合适的奖励函数十分困难。
上述方式的装配导致的问题是:一般的学习方法无法实现对机器人的快速且准确的装配,以及学习过程中各参数的选取十分困难。
发明内容
为克服上述现有技术的不足,本发明提供了基于近端策略优化算法的机器人快速装配系统及方法,能够不依赖于环境模型,提高装配策略的泛化能力,减少对学习率等参数的调节。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了基于近端策略优化算法的机器人快速装配系统,包括:
力检测单元、机械臂及控制系统;
所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;
所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。
作为一种实施例子,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。
作为一种实施例子,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
第二方面,公开了基于近端策略优化算法的机器人快速装配方法,包括:
控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。
作为一种实施例子,所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所接收的指令进行插孔装配。
作为进一步优选的方案,基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,具体为:由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。
作为进一步优选的方案,所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。
以上一个或多个技术方案存在以下有益效果:
为了能够不依赖于环境模型,提高装配策略的泛化能力,减少对学习率等参数的调节,本发明结合深度强化学习方法提出了一种基于近端策略优化并结合模糊逻辑的机器人快速装配策略。
本发明搭建的模糊奖励系统用来确定机器人装配所要学习的目标,防止避免复杂奖励函数的设计,并且由于模糊逻辑本身的特点提高了系统整体的鲁棒性。(模糊奖励系统是为了改进学习算法中的奖励函数,利用模糊逻辑对所选取的参数进行处理得到所需的奖励值,从而不需要设计复杂的奖励函数也能达到对网络的训练效果。)
本发明使用的近端策略优化算法根据装配状态输出机器人装配所需的动作值,并不用设置学习率等参数即可在与环境的交互过程中不断训练,提高装配效率,增强了数据的利用效率,具有更好的样本复杂性和泛化能力。
本发明阻抗控制通过对网络输出的装配动作进行补偿,可以加快装配速度,并且本发明可以根据具体的接触情况实时调节阻抗参数。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例机器人轴孔装配系统示意图;
图2为本发明实施例机器人轴孔装配流程图;
图3为本发明实施例模糊奖励系统图;
图4为本发明实施例近端策略优化算法流程。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了基于近端策略优化算法的机器人快速装配系统,如图1所示,由机械臂末端六维力传感器,上位机,机械臂,复杂装配对象(USB、VGA等电子连接件)组成。六维力传感器用来获取机械臂末端力和力矩,并将力信息反馈给上位机训练网络。机械臂是主要的执行机构,用来执行网络输出的动作。装配对象是组成物理接触环境的主要部分,不同的装配对象装配的装配策略也不相同。上位机根据机器人和力传感器反馈回来的状态信息训练近端策略优化算法网络,并搭建模糊奖励系统。
上述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,作为惩罚项以减少装配过程中大接触力产生并加快装配速度,正奖励由装配所用步数决定,作为激励项减少装配所用步数。
上述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
实施例二
本实施例的目的是提供了基于近端策略优化算法的机器人快速装配方法,包括:
控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。
所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所接收的指令进行插孔装配。
本发明根据近端策略优化算法,结合模糊逻辑,提出了一种能够快速进行轴孔装配的方法。该方法在轴孔装配环境中学习,上位机与机械臂通讯获取的机械臂位姿、末端六维力传感器获取的接触力/力矩输入网络进行训练,输出下一步所需的动作值,控制机械臂进行轴孔装配。流程如图2所示,具体包含步骤如下:
步骤一:初始化机械臂,算法网络,定义输入状态st=(sp,sτ),式中sp=[px,py,pz,pα,pβ,pγ],表示机械臂末端位姿,其中(px,py,pz)分别指机械臂末端的x,y,z坐标,(pα,pβ,pγ)指机械臂末端绕x,y,z轴的旋转角;sτ=[Fx,Fy,Fz,Mx,My,Mz],表示机械臂末端装配力/力矩,其中(Fx,Fy,Fz)分别指机械臂末端沿x,y,z方向的力,(Mx,My,Mz)分别指机械臂末端沿x,y,z方向的力矩;
步骤二:定义机械臂动作aΔ=[Δx,Δy,Δz,Δα,Δβ,Δγ],其中(Δx,Δy,Δz)分别指机械臂沿x,y,z方向的位移量,(Δα,Δβ,Δγ)分别指机械臂绕x,y,z轴的旋转量,作为网络输出值,用来控制机械臂运动。
步骤三:定义阻抗参数选择系统,输入各个轴的位移和力大小或沿各个轴的旋转量和力矩,经由模糊逻辑处理得到各个方向的阻抗参数。通过对阻抗参数的控制,提高机器人装配的柔顺性和快速性。阻抗公式为:
其中,起主要作用的参数为Kd,因此只考虑Kd参数,xd为目标位置,x0为当前位置,F为目标参考力,xd-x0即为阻抗控制所加的位置补偿。此时:
xd-x0=Kd -1F
其中,Kd=(kx,ky,kz,kα,kβ,kγ),分别是各个轴的阻抗参数。
装配状态和阻抗参数之间的关系如表1所示。
表1装配状态和阻抗参数之间的关系
本发明还包括定义模糊奖励系统。
选取最大接触力F=max(Fx,Fy,Fz),最大接触力矩M=max(Mx,My,Mz),z轴方向的位移Δz以及装配深度dz作为轴孔装配参数。
搭建模糊奖励系统如图3所示。模糊奖励系统由两个模糊层构成,其中第一层的输出是第二层的输入,最终第二层的输出作为负奖励r2。正奖励r1=1-ζ/ζmax由装配所用步数ζ决定。整体奖励r=r1+λr2。
具体实施时,搭建近端策略优化算法网络并进行训练,整体网络结构及训练流程如图4所示。
共有三个网络层组成,分别是Actorold,Actornew,critic网络。其中Actorold和Actornew结构上相同,但是首先更新Actornew网络,每经过一个batch步后对Actorold进行更新,最终输出动作的是Actorold网络。critic网络用来计算优势函数,用来更新Actorold和Actornew网络。
1)将装配状态st输入Actorold网络中,得到一个正态分布通过这个正态分布来选择机械臂运动的动作at。根据当前状态,经由模糊奖励系统计算奖励值rt,和环境交互后得到新的状态st+1,将数据([st,at,rt],st+1)存入经验池中,重复此步骤。当存储了一定量的([st,at,rt],st+1),Actorold网络开始更新。
2)将1)中最后一步的状态s输入到critic网络中,得到该状态的vt值,并计算折扣奖励Rt=rt+ξrt+1+ξ2rt+2+…+ξT-t+1rT-1+ξT-tvt。计算优势函数At=Rt-vt。
3)求critic网络的损失函数closs=mean(square(At)),然后反向传播更新critic网络。
4)将状态值st分别输入网络结构一样的Actorold和Actornew网络,分别得到正态分布和将存储的所有at组合为输入到正态分布和得到每个对应的prob1和prob2,然后用prob2除以prob1得到重要性权重ω。
6)循环4-5步骤,循环一定步数后,用Actornew网络权重来更新Actorold网络。
7)循环1-6步直至训练结束。
本发明还公开了一种机器人,采用所述的基于近端策略优化算法的机器人快速装配方法进行装配。或
采用基于近端策略优化算法的机器人快速装配系统进行装配。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.基于近端策略优化算法的机器人快速装配系统,其特征是,包括:
力检测单元、机械臂及控制系统;
所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;
所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网络输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配;
控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束;
训练近端策略优化算法网络的过程为:将装配状态输入Actornew网络,得到一个正态分布,通过这个正态分布来选择机械臂运动的动作,根据当前状态,经由模糊奖励系统计算奖励值,和环境交互后得到新的状态,将获得数据存储;将新的状态输入到critic网络中得到该状态的vt值,并计算折扣奖励,计算优势函数,然后反向传播更新critic网络;将状态值分别输入网络结构一样的Actorold和Actornew网络,分别得到正态分布;将存储的所有状态值进行组合并输入到正态分布;计算Actor网络的损失,反向传播以更新Actornew网络,利用Actornew网络权重来更新Actorold网络。
2.如权利要求1所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。
3.如权利要求2所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
4.基于近端策略优化算法的机器人快速装配方法,其特征是,包括:
控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束;
其中,训练近端策略优化算法网络的过程为:将装配状态输入Actornew网络,得到一个正态分布,通过这个正态分布来选择机械臂运动的动作,根据当前状态,经由模糊奖励系统计算奖励值,和环境交互后得到新的状态,将获得数据存储;将新的状态输入到critic网络中得到该状态的vt值,并计算折扣奖励,计算优势函数,然后反向传播更新critic网络;将状态值分别输入网络结构一样的Actorold和Actornew网络,分别得到正态分布;将存储的所有状态值进行组合并输入到正态分布;计算Actor网络的损失,反向传播以更新Actornew网络,利用Actornew网络权重来更新Actorold网络。
5.如权利要求4所述的基于近端策略优化算法的机器人快速装配方法,其特征是,所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所接收的指令进行插孔装配。
6.如权利要求5所述的基于近端策略优化算法的机器人快速装配方法,其特征是,基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,具体为:由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。
7.如权利要求6所述的基于近端策略优化算法的机器人快速装配方法,其特征是,所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。
8.一种机器人,其特征是,采用如权利要求4-7任一所述的基于近端策略优化算法的机器人快速装配方法进行装配。
9.一种机器人,其特征是,采用权利要求1-3任一所述的基于近端策略优化算法的机器人快速装配系统进行装配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111353675.0A CN113977583B (zh) | 2021-11-16 | 2021-11-16 | 基于近端策略优化算法的机器人快速装配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111353675.0A CN113977583B (zh) | 2021-11-16 | 2021-11-16 | 基于近端策略优化算法的机器人快速装配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113977583A CN113977583A (zh) | 2022-01-28 |
CN113977583B true CN113977583B (zh) | 2023-05-09 |
Family
ID=79748740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111353675.0A Active CN113977583B (zh) | 2021-11-16 | 2021-11-16 | 基于近端策略优化算法的机器人快速装配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113977583B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115070767A (zh) * | 2022-07-04 | 2022-09-20 | 中国科学院沈阳自动化研究所 | 一种基于Actor Critic的动态装配方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543823B (zh) * | 2018-11-30 | 2020-09-25 | 山东大学 | 一种基于多模信息描述的柔性装配系统及方法 |
CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111251294A (zh) * | 2020-01-14 | 2020-06-09 | 北京航空航天大学 | 一种基于视觉位姿感知和深度强化学习的机器人抓取方法 |
CN112338921A (zh) * | 2020-11-16 | 2021-02-09 | 西华师范大学 | 一种基于深度强化学习的机械臂智能控制快速训练方法 |
CN112511250B (zh) * | 2020-12-03 | 2022-06-03 | 中国人民解放军火箭军工程大学 | 一种基于drl的多无人机空中基站动态部署方法及系统 |
-
2021
- 2021-11-16 CN CN202111353675.0A patent/CN113977583B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113977583A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Matulis et al. | A robot arm digital twin utilising reinforcement learning | |
CN111881772B (zh) | 基于深度强化学习的多机械臂协同装配方法和系统 | |
CN110666793B (zh) | 基于深度强化学习实现机器人方形零件装配的方法 | |
Leottau et al. | Decentralized reinforcement learning of robot behaviors | |
CN112631128B (zh) | 一种多模异构信息融合的机器人装配技能学习方法及系统 | |
CN113510704A (zh) | 一种基于强化学习算法的工业机械臂运动规划方法 | |
WO2019127063A1 (en) | Reinforcement learning for human robot interaction | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
CN116533249A (zh) | 基于深度强化学习的机械臂控制方法 | |
CN113977583B (zh) | 基于近端策略优化算法的机器人快速装配方法及系统 | |
CN113821045A (zh) | 一种腿足机器人强化学习动作生成系统 | |
CN117215204B (zh) | 基于强化学习的机器人步态训练方法及系统 | |
CN113359704A (zh) | 一种适用于复杂未知环境的自适应sac-pid方法 | |
Lee et al. | Autonomous lane keeping based on approximate Q-learning | |
CN113515044B (zh) | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 | |
Li et al. | Research on the agricultural machinery path tracking method based on deep reinforcement learning | |
CN115446867A (zh) | 一种基于数字孪生技术的工业机械臂控制方法及系统 | |
CN112264995B (zh) | 一种基于层级强化学习的机器人双轴孔装配方法 | |
CN114779792A (zh) | 基于模仿与强化学习的医药机器人自主避障方法及系统 | |
Zhou et al. | Deep reinforcement learning with long-time memory capability for robot mapless navigation | |
Jiang et al. | Motion sequence learning for robot walking based on pose optimization | |
CN114047745A (zh) | 机器人运动控制方法、机器人、计算机装置和存储介质 | |
JP2002239952A (ja) | ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体 | |
US20220402126A1 (en) | Systems, computer program products, and methods for building simulated worlds | |
CN116560239B (zh) | 一种多智能体强化学习方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |