CN114918651A - 一种任务条件自适应机器人轴孔装配方法及装置 - Google Patents

一种任务条件自适应机器人轴孔装配方法及装置 Download PDF

Info

Publication number
CN114918651A
CN114918651A CN202210716678.4A CN202210716678A CN114918651A CN 114918651 A CN114918651 A CN 114918651A CN 202210716678 A CN202210716678 A CN 202210716678A CN 114918651 A CN114918651 A CN 114918651A
Authority
CN
China
Prior art keywords
robot
function
assembly
environment
compliance control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210716678.4A
Other languages
English (en)
Other versions
CN114918651B (zh
Inventor
徐静
杨文昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210716678.4A priority Critical patent/CN114918651B/zh
Publication of CN114918651A publication Critical patent/CN114918651A/zh
Application granted granted Critical
Publication of CN114918651B publication Critical patent/CN114918651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P19/00Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes
    • B23P19/04Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes for assembling or disassembling parts
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种任务条件自适应机器人轴孔装配方法及装置,属于人工智能技术应用领域。其中,所述方法包括:获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;利用所述修正值修正主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。本发明在于变化的任务条件下实现了机器人轴孔装配的自适应控制,具有更好的适应性与泛化能力,提高了获得有效环境策略的速度,提升了控制系统在实际条件训练过程中的安全性与稳定性。

Description

一种任务条件自适应机器人轴孔装配方法及装置
技术领域
本发明属于人工智能技术应用领域,特别涉及一种任务条件自适应机器人轴孔装配方法及装置。
背景技术
智能制造快速发展的趋势下,机器人自动化装配技术具有巨大的市场需求,随着装配精度与效率需求的不断提高,机器人自动化装配控制技术已经被越来越多的应用在各种装配领域中,如基于力反馈的末端主动柔顺控制方法等,此类方法将机器人转换为一个非刚性系统,能够在机器人与装配环境之间建立柔性交互从而有效提高装配任务的效率与安全性,然而尽管传统机器人末端主动柔顺控制算法已经被用于解决机器人轴孔装配问题,但由于主动柔顺控制维围绕单一装配任务条件设计,依赖操作人员的经验与调试,迁移至不同任务条件下时仍面临难以快速适应的问题。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种任务条件自适应机器人轴孔装配方法及装置。本发明在于变化的任务条件下实现了机器人轴孔装配的自适应控制,具有更好的适应性与泛化能力,提高了获得有效环境策略的速度,提升了控制系统在实际条件训练过程中的安全性与稳定性。
本发明第一方面实施例提出一种任务条件自适应机器人轴孔装配方法,包括:
获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
在本发明的一个具体实施例中,所述方法还包括:
执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的装配目标深度,则装配完成。
在本发明的一个具体实施例中,所述机器人轴孔装配的任务条件从所述任务条件的分布函数中随机选取。
在本发明的一个具体实施例中,所述主动柔顺控制策略函数表达式如下:
π(at|stπ)
其中,机器人主动柔顺控制策略函数的输入量为st,st代表在第t个时刻轴孔装配的状态,包括:机器人在第t个时刻的力和扭矩信息
Figure BDA0003709774550000021
以及第t个时刻轴的位置姿态信息
Figure BDA0003709774550000022
其中Ft x,Ft y,Ft z分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的力,
Figure BDA0003709774550000023
分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的扭矩,xt,yt,zt分别为第t个时刻轴末端点在工作空间坐标系下的相对于X,Y,Z轴的位置坐标,
Figure BDA0003709774550000024
分别为第t个时刻轴线方向相对于世界坐标系X,Y,Z轴的欧拉角表示的姿态角;
机器人主动柔顺策略函数的输出量为at,at代表装配过程中第t个时刻的装配动作,
Figure BDA0003709774550000025
其中
Figure BDA0003709774550000026
分别为第t个时刻机器人在末端坐标系下沿X,Y,Z轴的平移运动值,
Figure BDA0003709774550000027
分别为第t个时刻机器人在末端坐标系下绕X,Y,Z轴的旋转运动值,机器人主动柔顺控制策略函数的参数为θπ,包括主动柔顺控制策略函数的阻抗信息[Kd,Bd,Md],其中Kd,Bd,Md分别为期望的刚度、阻尼与惯性系数。
在本发明的一个具体实施例中,在所述获取机器人轴孔装配的任务参数,将所述参数输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值之前,还包括:
训练所述环境策略函数;
所述训练所述环境策略函数包括:
1)构建机器人轴孔装配的环境策略函数为Π(ωn|znΠ),其中环境策略函数的输入量为环境条件zn,zn代表第n个装配训练回合开始时的任务条件;环境策略函数的输出量为ωn,代表第n个装配训练回合的阻抗修正信息[ΔKn,ΔBn,ΔMn],其中,ΔKn,ΔBn,ΔMn分别为第n个装配训练回合中Kd,Bd,Md的修正值;θΠ是环境策略函数的参数;
2)构建奖励函数r(st),代表观测到状态st时的奖励值;
设定相对熵约束系数ε;设定机器人主动柔顺控制策略函数参数θπ,初始化环境策略函数参数θΠ
3)设定环境策略搜索方法的训练周期数k的初始值为1,初始化环境策略搜索样本库Dcps为空集合;
4)在训练周期k开始时,设定装配训练回合数n的初始值为1;
5)在装配训练回合n开始时,根据装配任务条件z的分布函数ρ(z)随机选取任务条件作为第n个装配训练回合的任务条件zn
6)将zn输入环境策略函数Π(ωn|znΠ),输出ωn
利用ωn修正主动柔顺控制策略函数参数θπ得到更新后的主动柔顺控制策略函数参数
Figure BDA0003709774550000031
Figure BDA0003709774550000032
7)机器人携带轴运动到设定的初始位置,设定当前训练回合初始位置对应的时刻t=1;
8)在当前训练回合的t时刻,获取状态st输入更新后的主动柔顺控制策略函数
Figure BDA0003709774550000033
输出机器人对应动作值at
令机器人执行动作at,机器人携带轴运动至下一位置,在t+1时刻得到新的状态st+1,将st+1输入奖励函数,得到奖励值r(st+1);
9)根据st+1判断轴是否抵达目标深度Dn:若抵达,则执行步骤10);若未抵达,则令t=t+1,然后重新返回步骤8);
10)装配训练回合n结束,计算装配训练回合n内累计奖励值Rn
Figure BDA0003709774550000034
将经验样本{znn,Rn}存入环境策略搜索样本库Dcps
判断n是否达到训练周期内的装配训练回合总数N:若n≥N,则当前训练周期k结束,进入步骤11);否则,令n=n+1,然后重新回到步骤5);
11)根据环境策略搜索样本库Dcps中样本,构建任务条件与环境策略函数输出量的联合分布函数,通过优化更新环境策略函数的参数θΠ
12)判断k是否达到环境策略搜索训练周期总数K:
若k≥K,则训练结束,令当前θΠ为训练完毕的环境策略函数参数
Figure BDA0003709774550000041
将训练完毕的环境策略函数记为
Figure BDA0003709774550000042
否则,令k=k+1,然后重新返回步骤4)。
在本发明的一个具体实施例中,所述根据环境策略搜索样本库Dcps中样本构建任务条件与环境策略函数输出量的联合分布函数,通过优化更新环境策略函数的参数θΠ,包括:
11-1)从Dcps中读取已存储的任务条件和环境策略函数输出值,分别记为z和ω,通过带约束的优化问题更新z与ω的联合分布函数p(z,ω):
Figure BDA0003709774550000043
Figure BDA0003709774550000044
Figure BDA0003709774550000045
∫∫z,wp(z,ω)dzdω=1
其中,p(z,ω)为更新后z与ω的联合分布函数,R(z,ω)表示z,ω所对应的装配训练回合内累计奖励值;
11-2)求解环境策略函数:
Figure BDA0003709774550000046
得到更新后的环境策略函数参数θΠ
本发明第二方面实施例提出一种任务条件自适应机器人轴孔装配装置,包括:
环境策略修正模块,用于获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
主动柔顺控制策略生成模块,用于利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
装配动作生成模块,用于将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
在本发明的一个具体实施例中,所述装置还包括:
执行模块,用于执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的目标深度,则装配完成。
本发明第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种任务条件自适应机器人轴孔装配方法。
本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种任务条件自适应机器人轴孔装配方法。
本发明的特点及有益效果在于:
1)本发明在传统力反馈主动柔顺控制方法的基础上建立层级控制,通过环境策略输出动作对主动柔顺控制策略函数参数进行修正,从而对变化的任务条件下建立了自适应控制,具有更好的适应性与泛化能力。
2)本发明在环境策略更新过程中更好地平衡了更新策略以探索未知动作空间和维持充分开发现有动作空间的需要,提升了控制系统在实际条件训练过程中的安全性与稳定性。
3)本发明将自适应机器人控制方法应用于机器人轴孔装配控制任务中,有助于提高工业生产环境中机器人装配工作的效率。
附图说明
图1是本发明实施例提出的一种任务条件自适应机器人轴孔装配方法的整体流程图。
图2是本发明一个实施例中一种任务条件自适应机器人轴孔装配方法在训练阶段的整体流程图。
具体实施方式
本发明提出一种任务条件自适应机器人轴孔装配方法及装置,下面结合具体实施例对本发明进一步详细说明如下。
本发明第一方面实施例提出一种任务条件自适应机器人轴孔装配方法,整体流程如图1所示,包括:
获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的目标深度,则装配完成。
本发明一个具体实施例中,所述一种基于环境策略搜索的任务条件自适应机器人轴孔装配方法,分为训练阶段和实际装配阶段,包括以下步骤:
1)训练阶段,整体流程如图2所示,具体步骤如下:
1-1)确定环境策略搜索的训练周期总数为K(建议取值范围为100~200,本发明一个具体实施例中取值150),每个环境策略搜索训练周期内装配训练回合总数为N(建议取值范围为10~20,本发明一个具体实施例中取值15),设定环境策略搜索更新的相对熵约束系数ε(建议取值范围为0.1~0.5,本发明一个具体实施例中取值0.2);
在轴孔装配的一个回合中,根据任务条件的不同,将任务条件的参数表达为z,本发明一个具体实施例中轴孔装配中的任务条件包括轴孔零件的几何形貌和任务目标等信息,表达式为[l,c,σ,D,V],其中l,c,σ分别为轴孔零件长度(本实施例中取值范围为30-100mm,在本发明一个具体实施例中取值为100mm)、直径(本实施例中取值范围为20-30mm,在本发明一个具体实施例中取值为30mm)、配合间隙(本实施例中取值范围为50-200μm,在本发明一个具体实施例中取值为50μm),D,V分别为轴孔装配的目标深度和期望速度(本实施例中目标深度的取值范围为30-80mm,期望速度的取值范围为5-15mm/s,在本发明一个具体实施例中目标深度取值80mm)。z以矢量形式表达,与实际装配任务一一对应,设定z的均值为
Figure BDA0003709774550000061
其取值变化的分布函数为ρ(z);
1-3)设定机器人主动柔顺控制策略函数为π(at|stπ),其中机器人主动柔顺控制策略函数的输入量为st,st代表在第t个时刻(t∈[1,2,...])观察到的状态,本实施例中轴孔装配中的状态包括机器人在第t个时刻的力和扭矩信息
Figure BDA0003709774550000062
以及第t个时刻轴的位置姿态信息
Figure BDA0003709774550000063
其中Ft x,Ft y,Ft z分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的力,
Figure BDA0003709774550000064
分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的扭矩,xt,yt,zt分别为第t个时刻轴末端点在工作空间坐标系下的相对于X,Y,Z轴的位置坐标,
Figure BDA0003709774550000071
分别为第t个时刻轴线方向相对于世界坐标系的X,Y,Z轴的欧拉角表示的姿态角;机器人主动柔顺策略函数的输出量为at,at代表装配过程中第t个时刻的装配动作
Figure BDA0003709774550000072
其中
Figure BDA0003709774550000073
分别为第t个时刻机器人在末端坐标系下沿X,Y,Z轴的平移运动值,
Figure BDA0003709774550000074
分别为第t个时刻机器人在末端坐标系下绕X,Y,Z轴的旋转运动值。机器人主动柔顺控制策略函数的参数为θπ,包括主动柔顺控制策略的函数阻抗信息[Kd,Bd,Md],其中Kd,Bd,Md分别为期望的刚度、阻尼与惯性系数;π(at|stπ)的含义是,在参数θπ条件下,状态st对应的动作值at
1-4)设定机器人轴孔装配的环境策略函数为Π(ωn|znΠ),其中环境策略函数的输入量为环境条件zn,zn代表第n个装配训练回合开始时观测获得的任务条件;环境策略函数的输出量为ωn,代表第n个装配训练回合的阻抗修正信息[ΔKn,ΔBn,ΔMn],其中ΔKn,ΔBn,ΔMn分别为第n个装配训练回合中主动柔顺控制策略参数Kd,Bd,Md的修正值;θΠ是环境策略函数的参数;Π(ωn|znΠ)的含义是在参数θΠ条件下,环境条件zn对应的阻抗修正信息ωn的分布函数。
1-5)设定奖励函数r(st),代表观测到状态st时收获的奖励值;设定相对熵约束系数ε(本发明一个具体实施例中取值0.2);设定机器人主动柔顺控制策略函数参数θπ(该参数取值在训练时保持不变,本发明一个实施例中Kd,Bd,Md分别取值100N/mm,10N·s/mm,1N·s2/mm),初始化环境策略函数参数θΠ(建议取值范围0-0.99)。
1-6)设定环境策略搜索方法的训练周期数k的初始值为1,初始化环境策略搜索样本库Dcps为空集合。
1-7)在训练周期k(k∈[1,2,...])开始时,设定装配训练回合数n(n∈[1,2,...])的初始值为1。
1-8)在装配训练回合n开始时,根据分布函数为ρ(z)随机选取任务条件记为第n个装配训练回合的任务条件zn,根据zn所示的参数设置任务;
本发明一个具体实施例中,zn=[ln,cnn,Dn,Vn],其中ln,cnn分别为装配训练回合n中轴孔零件长度(本实施例中取值为100mm)、直径(本实施例中取值为30mm)、配合间隙(本实施例中取值为50μm),Dn,Vn分别为轴孔装配的目标深度和期望速度(本实施例中期望速度的取值范围为5-15mm/s,目标深度取值80mm)。,根据ln,cnn分别选取对应参数的轴孔零件;根据参数Dn设定轴孔装配的目标深度,当机器人携带轴到达目标深度时,一个回合结束;根据Vn设置机器人系统的动作输出范围,作为机器人执行动作值的限制条件。
将任务条件zn输入环境策略函数Π(ωn|znΠ),输出ωn,利用ωn修正主动柔顺控制策略函数参数θπ得到实际用于控制的更新后的主动柔顺控制策略函数参数
Figure BDA0003709774550000081
Figure BDA0003709774550000082
机器人将轴运动到设定的初始位置,设定当前训练回合初始位置对应的时刻t=1。
1-9)在当前训练回合的t时刻,获取状态st输入更新后的主动柔顺控制策略函数
Figure BDA0003709774550000083
输出机器人对应动作值at,令机器人执行动作at,机器人携带轴运动至下一位置,在t+1时刻得到新的状态st+1,将st+1输入奖励函数,得到奖励值r(st+1)。
1-10)根据st+1判断轴是否抵达目标深度Dn:若抵达,则执行步骤1-11);若未抵达,则令t=t+1,然后重新返回步骤1-9)。
1-11)装配训练回合n结束,计算装配训练回合n内累计奖励值Rn
Figure BDA0003709774550000084
将经验样本{znn,Rn}存入环境策略搜索样本库Dcps
判断n是否达到训练周期内的装配训练回合总数N:若达到(即n≥N),则当前训练周期k结束,进入步骤1-12);若未达到(即n<N),则令n=n+1,然后重新回到步骤1-8)。
1-12)根据环境策略搜索样本库Dcps中的当前所有样本,更新环境策略函数的参数θΠ,具体步骤如下:
1-12-1)根据Dcps的所有的{znn,Rn},从Dcps中读取已存储的任务条件和环境策略函数输出值,分别记为z和ω,通过带约束的优化问题更新z与ω的联合分布函数p(z,ω):通过带约束的优化问题更新z与ω的联合分布函数p(z,ω):
Figure BDA0003709774550000091
Figure BDA0003709774550000092
Figure BDA0003709774550000093
∫∫z,wp(z,ω)dzdω=1
其中,p(z,ω)为更新后z与ω的联合分布函数,R(z,ω)表示z,ω所对应的装配训练回合内累计奖励值;
1-12-2)根据概率分布关系求解环境策略函数:
Figure BDA0003709774550000094
可以求解得到更新后的环境策略函数参数θΠ。本实施例根据装配训练回合采集得到的训练样本,将环境策略函数参数更新过程简化为带不等式约束的优化问题,减少了训练的难度,提高了获得有效环境策略的速度。
本发明利用环境相对熵约束条件,在环境策略更新过程中更好地平衡了更新策略以探索未知动作空间和维持充分开发现有动作空间的需要,提升了控制系统在实际条件训练过程中的安全性与稳定性。1-13)判断k是否达到环境策略搜索训练周期总数K:若达到(即k≥K),则训练过程结束,所得到的环境策略函数可以用于自适应装配控制,令当前获得的θΠ为最终获得的环境策略函数参数为
Figure BDA0003709774550000095
将训练完毕的环境策略函数记为
Figure BDA0003709774550000096
执行步骤2);若未达到(即k<K),则令k=k+1,回到步骤1-7)。
本实施例通过环境策略根据任务条件选择合适的参数进行训练,下层机器人主动柔顺控制的行为策略,最终学习出解决轴孔装配的自适应策略,提高对变化任务条件的适应能力。
2)实际装配阶段;具体步骤如下:
2-1)在实际装配回合开始时,根据实际的任务需要选取任务条件z。
在本发明一个具体实施例中,所述任务条件z记为[l,c,σ,D,V],根据任务条件z所示的参数设置任务:根据l,c,σ分别选取对应参数的轴孔零件;根据参数Dd设定轴孔装配的目标深度;根据Vd设置机器人系统的动作输出范围。
2-2)将步骤2-1)的任务条件z输入步骤1)训练完毕的环境策略函数
Figure BDA0003709774550000097
该函数输出主动柔顺控制策略参数的修正值ω*
2-3)利用步骤2-2)的结果,修正主动柔顺控制策略函数参数θπ得到实际用于控制的修正后的主动柔顺控制策略函数参数
Figure BDA0003709774550000101
Figure BDA0003709774550000102
得到更新后的主动柔顺控制策略函数
Figure BDA0003709774550000103
2-4)机器人将轴运动到设定的初始位置,设定实际装配回合初始位置对应的时刻t=1。
2-5)在装配回合的t时刻,获取状态st并输入更新后的主动柔顺控制策略函数
Figure BDA0003709774550000104
该函数输出机器人t时刻的对应动作值at
2-6)令机器人执行动作at,机器人携带轴运动至下一位置,得到新的状态st+1
2-4)根据st+1判断轴是否抵达目标深度Dd:若抵达,则装配完成;若未抵达,令t=t+1,然后重新返回步骤2-5)。
为实现上述实施例,本发明第二方面实施例提出一种任务条件自适应机器人轴孔装配装置,包括:
环境策略修正模块,用于获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
主动柔顺控制策略生成模块,用于利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
装配动作生成模块,用于将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
在本发明的一个具体实施例中,所述装置还包括:
执行模块,用于执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的目标深度,则装配完成。
需要说明的是,前述对一种任务条件自适应机器人轴孔装配方法的实施例解释说明也适用于本实施例的一种任务条件自适应机器人轴孔装配装置,在此不再赘述。根据本发明实施例提出的一种任务条件自适应机器人轴孔装配装置,通过获取机器人轴孔装配的任务条件,将所述任务条件数输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。由此,实现在传统力反馈主动柔顺控制方法的基础上建立层级控制,通过环境策略输出动作对主动柔顺控制策略函数参数进行修正,从而对变化的任务条件下建立了自适应控制,具有更好的适应性与泛化能力。。
为实现上述实施例,本发明第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种任务条件自适应机器人轴孔装配方法。
为实现上述实施例,本发明第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种任务条件自适应机器人轴孔装配方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种任务条件自适应机器人轴孔装配方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种任务条件自适应机器人轴孔装配方法,其特征在于,包括:
获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的装配目标深度,则装配完成。
3.根据权利要求1所述的方法,其特征在于,所述机器人轴孔装配的任务条件从所述任务条件的分布函数中随机选取。
4.根据权利要求1所述的方法,其特征在于,所述主动柔顺控制策略函数表达式如下:
π(at|stπ)
其中,机器人主动柔顺控制策略函数的输入量为st,st代表在第t个时刻轴孔装配的状态,包括:机器人在第t个时刻的力和扭矩信息
Figure FDA0003709774540000011
以及第t个时刻轴的位置姿态信息
Figure FDA0003709774540000012
其中Ft x,Ft y,Ft z分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的力,
Figure FDA0003709774540000013
分别为第t个时刻机器人在末端坐标系下受到的沿X,Y,Z轴的扭矩,xt,yt,zt分别为第t个时刻轴末端点在工作空间坐标系下的相对于X,Y,Z轴的位置坐标,
Figure FDA0003709774540000014
分别为第t个时刻轴线方向相对于世界坐标系X,Y,Z轴的欧拉角表示的姿态角;
机器人主动柔顺策略函数的输出量为at,at代表装配过程中第t个时刻的装配动作,
Figure FDA0003709774540000015
其中
Figure FDA0003709774540000016
分别为第t个时刻机器人在末端坐标系下沿X,Y,Z轴的平移运动值,
Figure FDA0003709774540000017
别为第t个时刻机器人在末端坐标系下绕X,Y,Z轴的旋转运动值,机器人主动柔顺控制策略函数的参数为θπ,包括主动柔顺控制策略函数的阻抗信息[Kd,Bd,Md],其中Kd,Bd,Md分别为期望的刚度、阻尼与惯性系数。
5.根据权利要求4所述的方法,其特征在于,在所述获取机器人轴孔装配的任务参数,将所述参数输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值之前,还包括:
训练所述环境策略函数;
所述训练所述环境策略函数包括:
1)构建机器人轴孔装配的环境策略函数为Π(ωn|znΠ),其中环境策略函数的输入量为环境条件zn,zn代表第n个装配训练回合开始时的任务条件;环境策略函数的输出量为ωn,代表第n个装配训练回合的阻抗修正信息[ΔKn,ΔBn,ΔMn],其中,ΔKn,ΔBn,ΔMn分别为第n个装配训练回合中Kd,Bd,Md的修正值;θΠ是环境策略函数的参数;
2)构建奖励函数r(st),代表观测到状态st时的奖励值;
设定相对熵约束系数ε;设定机器人主动柔顺控制策略函数参数θπ,初始化环境策略函数参数θΠ
3)设定环境策略搜索方法的训练周期数k的初始值为1,初始化环境策略搜索样本库Dcps为空集合;
4)在训练周期k开始时,设定装配训练回合数n的初始值为1;
5)在装配训练回合n开始时,根据装配任务条件z的分布函数ρ(z)随机选取任务条件作为第n个装配训练回合的任务条件zn
6)将zn输入环境策略函数Π(ωn|znΠ),输出ωn
利用ωn修正主动柔顺控制策略函数参数θπ得到更新后的主动柔顺控制策略函数参数
Figure FDA0003709774540000021
Figure FDA0003709774540000022
7)机器人携带轴运动到设定的初始位置,设定当前训练回合初始位置对应的时刻t=1;
8)在当前训练回合的t时刻,获取状态st输入更新后的主动柔顺控制策略函数
Figure FDA0003709774540000023
输出机器人对应动作值at
令机器人执行动作at,机器人携带轴运动至下一位置,在t+1时刻得到新的状态st+1,将st+1输入奖励函数,得到奖励值r(st+1);
9)根据st+1判断轴是否抵达目标深度Dn:若抵达,则执行步骤10);若未抵达,则令t=t+1,然后重新返回步骤8);
10)装配训练回合n结束,计算装配训练回合n内累计奖励值Rn
Figure FDA0003709774540000031
将经验样本{znn,Rn}存入环境策略搜索样本库Dcps
判断n是否达到训练周期内的装配训练回合总数N:若n≥N,则当前训练周期k结束,进入步骤11);否则,令n=n+1,然后重新回到步骤5);
11)根据环境策略搜索样本库Dcps中样本,构建任务条件与环境策略函数输出量的联合分布函数,通过优化更新环境策略函数的参数θΠ
12)判断k是否达到环境策略搜索训练周期总数K:
若k≥K,则训练结束,令当前θΠ为训练完毕的环境策略函数参数
Figure FDA0003709774540000032
将训练完毕的环境策略函数记为
Figure FDA0003709774540000033
否则,令k=k+1,然后重新返回步骤4)。
6.根据权利要求5所述的方法,其特征在于,所述根据环境策略搜索样本库Dcps中样本构建任务条件与环境策略函数输出量的联合分布函数,通过优化更新环境策略函数的参数θΠ,包括:
11-1)从Dcps中读取已存储的任务条件和环境策略函数输出值,分别记为z和ω,通过带约束的优化问题更新z与ω的联合分布函数p(z,ω):
Figure FDA0003709774540000034
s.t.:
Figure FDA0003709774540000035
Figure FDA0003709774540000036
∫∫z,wp(z,ω)dzdω=1
其中,p(z,ω)为更新后z与ω的联合分布函数,R(z,ω)表示z,ω所对应的装配训练回合内累计奖励值;
11-2)求解环境策略函数:
Figure FDA0003709774540000041
得到更新后的环境策略函数参数θΠ
7.一种任务条件自适应机器人轴孔装配装置,其特征在于,包括:
环境策略修正模块,用于获取机器人轴孔装配的任务条件,将所述任务条件输入预设的环境策略函数,得到主动柔顺控制策略参数的修正值;
主动柔顺控制策略生成模块,用于利用所述修正值修正预设的主动柔顺控制策略函数参数,得到修正后的主动柔顺控制策略函数;
装配动作生成模块,用于将机器人轴孔装配的状态参数输入所述修正后的主动柔顺控制策略函数,得到所述机器人对应的装配动作。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
执行模块,用于执行所述装配动作,获得更新后的所述机器人轴孔装配的状态参数并判定:
若所述机器人携带轴达到预设的目标深度,则装配完成。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一项所述的方法。
CN202210716678.4A 2022-06-23 2022-06-23 一种任务条件自适应机器人轴孔装配方法及装置 Active CN114918651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716678.4A CN114918651B (zh) 2022-06-23 2022-06-23 一种任务条件自适应机器人轴孔装配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716678.4A CN114918651B (zh) 2022-06-23 2022-06-23 一种任务条件自适应机器人轴孔装配方法及装置

Publications (2)

Publication Number Publication Date
CN114918651A true CN114918651A (zh) 2022-08-19
CN114918651B CN114918651B (zh) 2023-08-08

Family

ID=82813908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716678.4A Active CN114918651B (zh) 2022-06-23 2022-06-23 一种任务条件自适应机器人轴孔装配方法及装置

Country Status (1)

Country Link
CN (1) CN114918651B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009066733A (ja) * 2007-09-14 2009-04-02 Univ Kinki 組立て用ロボットハンド
US20190137954A1 (en) * 2017-11-09 2019-05-09 International Business Machines Corporation Decomposed perturbation approach using memory based learning for compliant assembly tasks
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110355557A (zh) * 2019-07-05 2019-10-22 清华大学 一种大尺寸轴孔工件装配的螺旋插装方法
CN110549338A (zh) * 2019-09-10 2019-12-10 哈尔滨工业大学 一种圆-长方形复合孔类零件的机器人自动装配方法
US10786900B1 (en) * 2018-09-27 2020-09-29 Deepmind Technologies Limited Robot control policy determination through constrained optimization for smooth continuous control
CN111881772A (zh) * 2020-07-06 2020-11-03 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN113134840A (zh) * 2021-05-26 2021-07-20 苏州艾利特机器人有限公司 一种实时设置力控参数的工业机器人及方法
CN113352331A (zh) * 2021-08-11 2021-09-07 苏州艾利特机器人有限公司 一种机器人与外部对象力协作的方法及协作机器人

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009066733A (ja) * 2007-09-14 2009-04-02 Univ Kinki 組立て用ロボットハンド
US20190137954A1 (en) * 2017-11-09 2019-05-09 International Business Machines Corporation Decomposed perturbation approach using memory based learning for compliant assembly tasks
US10786900B1 (en) * 2018-09-27 2020-09-29 Deepmind Technologies Limited Robot control policy determination through constrained optimization for smooth continuous control
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110355557A (zh) * 2019-07-05 2019-10-22 清华大学 一种大尺寸轴孔工件装配的螺旋插装方法
CN110549338A (zh) * 2019-09-10 2019-12-10 哈尔滨工业大学 一种圆-长方形复合孔类零件的机器人自动装配方法
CN111881772A (zh) * 2020-07-06 2020-11-03 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN113134840A (zh) * 2021-05-26 2021-07-20 苏州艾利特机器人有限公司 一种实时设置力控参数的工业机器人及方法
CN113352331A (zh) * 2021-08-11 2021-09-07 苏州艾利特机器人有限公司 一种机器人与外部对象力协作的方法及协作机器人

Also Published As

Publication number Publication date
CN114918651B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CA2719494C (en) Robotics systems
CN112631128B (zh) 一种多模异构信息融合的机器人装配技能学习方法及系统
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
KR20210011422A (ko) 모델 없는 강화 학습을 위한 스택형 컨볼루션 장단기 메모리
Yang et al. Efficient deep reinforcement learning via adaptive policy transfer
Ota et al. Trajectory optimization for unknown constrained systems using reinforcement learning
CN111783994A (zh) 强化学习的训练方法和装置
JP2023526962A (ja) ロボットデモンストレーション学習用スキルテンプレート
JP7448683B2 (ja) マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション
KR20220134619A (ko) 부트스트랩된 잠재 예측을 사용한 에이전트 제어를 위한 학습 환경 표현
JP2023528249A (ja) ロボット実証学習のためのスキルテンプレート配布
JP2022504739A (ja) 時間的価値移送を使用した長いタイムスケールにわたるエージェントの制御
WO2020177417A1 (zh) 控制无人驾驶设备及训练模型
CN113052253A (zh) 超参数确定方法、装置、深度强化学习框架、介质及设备
EP3970071A1 (en) Reinforcement learning with centralized inference and training
Yang et al. Efficient Deep Reinforcement Learning through Policy Transfer.
CN114918651A (zh) 一种任务条件自适应机器人轴孔装配方法及装置
CN113503885B (zh) 一种基于采样优化ddpg算法的机器人路径导航方法及系统
US11850752B2 (en) Robot movement apparatus and related methods
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning
CN114378820B (zh) 一种基于安全强化学习的机器人阻抗学习方法
CN115098941A (zh) 面向智能算法敏捷部署的无人机数字孪生控制方法和平台
CN113977583A (zh) 基于近端策略优化算法的机器人快速装配方法及系统
JP2023542654A (ja) 強化学習のためのタスク優先順位付き経験再生アルゴリズム
CN113084787A (zh) 仿生蛇形机器人运动步态规划方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant