CN116047904A - 面向机器人操作技能学习的人员仿真现实混合训练方法 - Google Patents

面向机器人操作技能学习的人员仿真现实混合训练方法 Download PDF

Info

Publication number
CN116047904A
CN116047904A CN202211737858.7A CN202211737858A CN116047904A CN 116047904 A CN116047904 A CN 116047904A CN 202211737858 A CN202211737858 A CN 202211737858A CN 116047904 A CN116047904 A CN 116047904A
Authority
CN
China
Prior art keywords
parameter
environment
parameters
skill
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211737858.7A
Other languages
English (en)
Inventor
刘星
黄攀峰
王高照
刘正雄
常海涛
马志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211737858.7A priority Critical patent/CN116047904A/zh
Publication of CN116047904A publication Critical patent/CN116047904A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种面向机器人操作技能学习的人员仿真现实混合训练方法,首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成,使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段;其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法;之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移;最后构建了机器人技能学习与技能转移的逻辑框架,通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。

Description

面向机器人操作技能学习的人员仿真现实混合训练方法
技术领域
本发明属于机器人技术领域,具体涉及一种人员仿真现实混合训练方法。
背景技术
机器人操作技能的学习是当下一个很热门的话题,而强化学习及其衍生方法是机器人操作技能学习的一种主要手段。但强化学习也有固有的缺陷,这在机器人操作技能的学习过程中表现的尤为明显,主要包括学习效率低下、难以应用于真实场景、学习过程缺乏透明性等。随着技术的发展,使用人机混合训练的方式为解决上述问题带来的希望。
发明内容
为了克服现有技术的不足,本发明提供了一种面向机器人操作技能学习的人员仿真现实混合训练方法,首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成,使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段;其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法;之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移;最后构建了机器人技能学习与技能转移的逻辑框架,通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:操作过程预处理部分;
步骤1-1:划分操作过程阶段;
操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;
将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示;阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si)   (I)
步骤1-2:明确阶段转移的约束条件;
如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示;转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断;
转换条件Ci表示为如下形式:
Figure BDA0004029856830000021
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态;
步骤1-3:生成机器人的动作规划;
阶段Gi看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,得到约束后的运动轨迹,用下式表示:
Figure BDA0004029856830000022
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件;所有动作规划的集合表示成:A=<A1,A2,…,An>;
步骤1-4:完成对关键特征参数的提取;
关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b;
步骤2:仿真环境中参数的优化部分;
步骤2-1:更新与仿真环境交互的运动规划;
使用高斯分布对特征参数K取N个向量值,表示为:
Figure BDA0004029856830000023
其中μ和σ分别为特征参数高斯分布的均值和标准差;然后更新步骤1-3中的运动规划:
Figure BDA0004029856830000024
步骤2-2:生成执行动作策略;
采用跟踪控制的方法实现轨迹追踪:
Figure BDA0004029856830000025
其中
Figure BDA0004029856830000027
是t时刻的跟踪误差;
步骤2-3:计算动作策略的奖励函数;
从步骤2-2收集回来N段轨迹ρ:<ρ12,…,ρN>,构建奖励值
Figure BDA0004029856830000028
计算每次执行任务的奖励值
Figure BDA0004029856830000026
步骤2-4:关键特征参数的优化;
根据步骤2-3生成的奖励函数,采用梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
Figure BDA0004029856830000031
Figure BDA0004029856830000032
α=α0μ   (7)
其中参数εμ代表人对参数迭代步长的判断,基于奖励值对应的参数值的情况做出的;
参数更新的公式如下:
μ←μ+αΔμ   (8)
σ←σ-Δσ-εσ   (9)
Figure BDA0004029856830000033
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整;越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回步骤2-1,直到奖励值稳定;
步骤3:仿真环境到实际操作环境技能转移部分;
步骤3-1:相似度函数的构建;
比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的数学特性,则直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,通过进行对比试验的方式获得;最终获得的KL散度矩阵如下,作为相似度的衡量指标:
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度;
步骤3-2:特征参数的筛选与转移;
衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
再与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R   (11)
如果特征参数K对应的相对误差值大于等于阈值,则特征参数K作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,则不改变特征参数K的大小,直接转移到真实的环境中;得到真实环境中探索的特征参数:Kphysical
步骤3-3::运动规划的转移;
比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数;
步骤4:实际环境中的技能优化部分;
步骤4-1:生成与真实环境交互的动作策略;
使用高斯分布对特征参数Kphysical取N′个向量值,表示为:
Figure BDA0004029856830000041
更新运动规划:
Figure BDA0004029856830000042
采用式(4)的方法实现轨迹追踪;
步骤4-2:特征参数的优化;
构建奖励函数
Figure BDA0004029856830000043
根据式(5)~(10)的方法对特征参数进行更新;
一次更新完成后,返回步骤4-1,直到算法收敛,算法结束;
最终机器人系统得到在实际操作环境中的特征参数,进而掌握此项操作技能。
本发明的有益效果如下:
(1)本发明使用的基于规则的操作阶段任务划分可以有效提高机器人操作技能学习的可解释性,同时有效缩小了机器人参数探索的状态空间,具有更高的控制精度。
(2)本发明提出的融合人类指导的操作技能学习框架可以用较少的机械臂与环境交互次数实现多步骤复杂技能策略的学习,有效提高了机器人技能学习的效率。
(3)本发明提出的以相似度函数为核心的从仿真环境到实际操作环境的技能转移框架可以极大地提升实际操作过程中的安全性,最大程度地利用仿真环境得到的数据,降低了在实际操作环境中所需的训练时间。
附图说明
图1为本发明方法框架图。
图2为本发明方法流程图。
图3为本发明实施例七自由度机械臂插孔任务仿真场景示意图。
图4为本发明实施例七自由度机械臂插孔任务实际场景示意图。
图5为本发明实施例插孔操作阶段划分示意图。
图6为本发明实施例中仿真优化得到的tdown参数收敛示意图。
图7为本发明实施例中仿真优化得到的xdown参数收敛示意图。
图8为本发明实施例中仿真优化得到的tpara参数收敛示意图。
图9为本发明实施例中仿真优化得到的xpara参数收敛示意图。
图10为本发明实施例中仿真优化得到的奖励函数收敛示意图。
图11为本发明实施例中实际优化得到的参数收敛示意图。
图12为本发明实施例中实际优化得到的奖励函数收敛示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明旨在解决机器人在复杂操作技能学习的过程中使用传统学习算法带来的操作过程可解释性差、优化时间长,以及难以在实际场景中应用的问题,提出了一种融合人知识指导的、可实现从仿真环境到实际场景技能转移的机器人操作技能高效学习方法。
为达到上述目的,本发明所涉及的发明内容如下所示:
(1)基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成。本发明使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段,每个阶段可以看成是一段点到点的运动轨迹;然后确定阶段之间的转换条件,转换条件是以“如果…那么…”这种规则形式定义的,表示环境对智能体的一种约束。
(2)构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法。本发明使用基于参数探索的策略梯度(PGPE)方法作为操作技能学习优化的基本方法,以奖励函数这个固定指标作为对操作者的反馈,采用专家偏好评价的方式调整探索参数的探索方差、学习率等参数,从而加快算法的收敛速度。
(3)构建了一种从仿真环境到实际场景的操作技能转移及评价框架。本发明通过构建相似度函数来衡量仿真环境与实际操作环境的差异,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移。
(4)构建了机器人技能学习与技能转移的逻辑框架,如图1所示,可以通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。
本发明提供了一种面向机器人高效操作技能学习的人员-仿真-现实混合训练方法,如图2所示,对操作技能过程进行分析,研究操作阶段的划分、关键特征的提取、强化学习策略优化、技能的转移以及实际操作场景中技能的优化等关键技术,本发明的具体实施步骤如下所示:
首先是操作过程预处理部分,主要包括四步:
第一步:划分操作过程阶段。操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;对于绝大部分操作任务来说,都不是能够仅通过一段简单的运动轨迹就能完成的,因此要想能够高效地完成某项操作任务,对操作过程阶段的划分是必要的。可以根据人类通过观察获得的先验知识,将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态可以表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态可以将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示。阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si)   (1)
操作阶段的描述为自然语言描述,其意图主要是使观察者能够理解这一阶段机器人的动作所造成的影响。
第二步:在第一步的基础上,明确阶段转移的约束条件。如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示。转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断。
转移条件的描述为融合定量表达的规则式语言描述。规则式语言的语法形式形如:“如果…那么…”这种逻辑语言所示,其目的是定义一个状态到判断变量的非线性映射,故转换条件Ci可以表示为如下形式:
Figure BDA0004029856830000061
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态。
第三步:在第一、二步的基础上,生成机器人的动作规划。阶段Gi可以看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,可以得到约束后的运动轨迹,用下式表示:
Figure BDA0004029856830000062
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件。所有动作规划的集合表示成:A=<A1,A2,…,An>。
第四步:在第一、二、三步的基础上,完成对关键特征参数的提取。关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b。
其次是仿真环境中参数的优化部分,主要包括以下四步:
第五步:更新与仿真环境交互的运动规划。在前四步的基础上,本方法使用高斯分布对特征参数K取N个向量值,表示为:
Figure BDA0004029856830000071
其中μ和σ分别为特征参数高斯分布的均值和标准差。然后更新步骤三中的运动规划:
Figure BDA0004029856830000072
Figure BDA0004029856830000073
第六步:生成执行动作策略。根据第五步生成的运动规划Aθ,采用跟踪控制的方法实现轨迹追踪:
Figure BDA0004029856830000074
其中
Figure BDA0004029856830000075
是t时刻的跟踪误差。
第七步:计算动作策略的奖励函数。从第六步收集回来N段轨迹ρ:<ρ12,…,ρN>,构建奖励值
Figure BDA0004029856830000076
计算每次执行任务的奖励值
Figure BDA0004029856830000077
第八步:关键特征参数的优化。根据第七步生成的奖励函数,根据梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
Figure BDA0004029856830000078
其中参数εμ代表人对参数迭代步长的一个判断,这个判断是基于奖励值对应的参数值的情况做出的。
参数更新的公式如下:
μ←μ+αΔμ   (8)
σ←σ-Δσ-εσ   (9)
Figure BDA0004029856830000079
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整,一般来说,越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回第五步,直到奖励值相对稳定。
然后是仿真环境到实际操作环境技能转移部分,主要包括以下三步:
第九步:相似度函数的构建。比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的精确的数学特性,可以直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,可以通过进行对比试验的方式获得。最终获得的KL散度矩阵如下,作为相似度的衡量指标。
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度。
第十步:特征参数的筛选与转移。在第九步的基础上,衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R    (11)
如果此特征参数对应的相对误差值较大,说明仿真环境得到的结果不可靠,此特征参数会作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,不改变原特征参数的大小,直接转移到真实的环境中。得到真实环境中探索的特征参数:Kphysical
第十一步:运动规划的转移。在第十步的基础上,比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数,实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。
最后是实际环境中的技能优化部分,主要包括以下两步:
第十二步:生成与真实环境交互的动作策略。使用高斯分布对特征参数Kphysical取N′个向量值,表示为:
Figure BDA0004029856830000081
更新运动规划:
Figure BDA0004029856830000082
采用式(4)的方法实现轨迹追踪。
第十三步:特征参数的优化。构建奖励函数
Figure BDA0004029856830000091
根据式(5)~(9)的方法对特征参数进行更新。
一次更新完成后,返回第十二步,直到算法收敛,算法结束。最终机器人系统会得到在实际操作环境中较为理想的特征参数,进而掌握此项操作技能。
具体实施例:
为证明本发明所提出的面向机器人高效操作技能学习的人员-仿真-现实混合训练系统的有效性,使用七自由度机械臂插孔操作技能的学习来进行验证,七自由度机械臂选择使用KUKA iiwa机械臂;孔和插销的截面形状为圆形,半径分别为:插销29.8mm,孔30.3mm。仿真操作场景如图3所示,使用Issac Sim仿真环境构建;实际操作场景如图4所示。具体实施流程如下所示:
1)划分操作过程阶段。根据人的先验知识,将插孔过程根据接触状态分成以下5个阶段:初始对准、下降接触、水平移动、调姿、插入,如图5所示。
2)在第一步的基础上,明确阶段转移的约束条件。五个阶段相应会生成四个转移条件,用规则语言描述如下:
C1:如果插销末端位姿满足:<X00>,那么进入“下降接触”阶段。
C2:插销末端力满足:Fzz,那么进入“水平移动”阶段。
C3:如果插销力和速度满足:Fyy and vy<∈y,那么进入“调姿”阶段
C4:如果插销末端姿态满足:
Figure BDA0004029856830000092
那么进入“插入”阶段。
令<X00>为孔平面上方固定位置,取εz=3.8N,εy=5N,∈y=0.01m/s。
3)在第一、二步的基础上,生成机器人的动作规划。使用“最小抖动轨迹”作为动作规划的基本形式,它可以实现运动过程中速度的抖动程度最小,表达式为:
Figure BDA0004029856830000096
Figure BDA0004029856830000093
选定初始位置di,终止位置df,运行时间tf,就可以确定一条轨迹。
4)在第一、二、三步的基础上,完成对关键特征参数的提取。考虑到操作技能学习的目的是快速且安全地完成此项任务,故选取了如下四个上层控制参数:下降时间tdown、下降距离xdown、水平移动距离xpara、水平移动时间tpara
5)更新与仿真环境交互的运动规划。使用高斯分布对特征参数K取N=20个向量值,表示为:
Figure BDA0004029856830000094
初值分别取为:
Figure BDA0004029856830000095
Figure BDA0004029856830000101
根据阶段划分和每一阶段的运动轨迹,生成
Figure BDA0004029856830000102
6)生成执行动作策略。采用计算逆运动学的方式实现机械臂末端对运动轨迹的追踪。计算当前的位置误差
Figure BDA0004029856830000103
采用式
Figure BDA0004029856830000104
进行控制,取竖直和水平方向的控制参数为:Kp=[10000,5000],KI=[50,50],KD=[1000,1000]。
7)计算动作策略的奖励函数。从第六步收集回来N段轨迹ρ:<ρ12,…,ρN>,奖励值的构建如下所示:
机械臂受力部分:
Figure BDA0004029856830000105
时间部分:
Figure BDA0004029856830000106
成败部分:
Figure BDA0004029856830000107
计算每次执行任务的奖励值
Figure BDA0004029856830000108
8)关键特征参数的优化。使用梯度上升算法计算奖励值对特征参数方差和标准差的梯度,根据式(5)~(7)估计每一次迭代的学习率,使得每一次参数迭代的变化量不超过最大变化量的10%。
探索参数的方差根据式(9)计算,且每隔20次迭代将探索方差缩小为原值的一半。
仿真环境中参数迭代80次后基本稳定,四个探索参数迭代的图像如图6~图9所示;奖励函数的变化曲线如图10所示。
9)相似度函数的构建。与下降时间tdown和下降距离xdown相关的动力学参数是孔平面的竖直弹性模量;与水平移动距离xpara和水平移动时间tpara相关的动力学参数是摩擦系数与水平弹性模量。由于这些参数都无法得到其精确的微分方程,故只能通过估计的方式获得其分布。本专利使用竖直方向上不加反馈的稳定接触力作为数值弹性模量的估计;使用平均水平移动速度作为摩擦系数的估计;使用水平方向上不加反馈的稳定接触力作为水平弹性模量的估计。
经过实际演示验证:仿真环境中的竖直方向接触力达到140N±5N;真实环境中为41N±10N;仿真环境中平均水平移动速度为30mm/s±0.5mm/s;真实环境中平均水平移动速度为27.5mm/s±1.2mm/s;仿真环境中的水平方向接触力达到14.8N±1.3N;真实环境中的水平方向接触力达到15.3N±4.5N。
计算得到参数的KL散度矩阵为:
R=[49.3231,2.6324,0.7896]T
10)特征参数的筛选与转移:对探索参数赋予动力学参数重要性权重:tdown=xdown=[1,0,0]T;xpara=tpara=[0,0.5,0.5]T,使用式(10)计算结果如下所示:
E(tdown)=E(xdown)=49.3231
E(tpara)=E(xpara)=1.7110
可以看到,下降时间tdown与下降距离xdown的误差参数计算结果远大于其余两个参数,故需作为在实际环境中进一步探索的参数Kphysical;参数xpara和tpara误差参数较小,可以使用仿真优化得到的参数。
11)运动规划的转移。比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数,实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。实际机械臂使用阻抗控制运动模式,为了实现机械臂的精确运动跟踪,通过调试,取竖直和水平方向的阻抗控制参数分别为:3000N/m,1000N/m。
12)生成与真实环境交互的动作策略。使用高斯分布对特征参数Kphysical取N′=10个向量值,表示为:
Figure BDA0004029856830000111
更新运动规划:
Figure BDA0004029856830000112
13)特征参数的优化。构建奖励函数
Figure BDA0004029856830000113
根据式(5)~(10)的方法对特征参数进行更新。
经过5次迭代后,奖励值接近最优值。实际环境中参数迭代的结果如图11所示,奖励函数变化曲线如图12所示。

Claims (1)

1.一种面向机器人操作技能学习的人员仿真现实混合训练方法,其特征在于,包括以下步骤:
步骤1:操作过程预处理部分;
步骤1-1:划分操作过程阶段;
操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;
将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示;阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si)                            (1)
步骤1-2:明确阶段转移的约束条件;
如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示;转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断;
转换条件Ci表示为如下形式:
Figure FDA0004029856820000011
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态;
步骤1-3:生成机器人的动作规划;
阶段Gi看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,得到约束后的运动轨迹,用下式表示:
Figure FDA0004029856820000012
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件;所有动作规划的集合表示成:A=<A1,A2,…,An>;
步骤1-4:完成对关键特征参数的提取;
关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b;
步骤2:仿真环境中参数的优化部分;
步骤2-1:更新与仿真环境交互的运动规划;
使用高斯分布对特征参数K取N个向量值,表示为:
Figure FDA0004029856820000021
其中μ和σ分别为特征参数高斯分布的均值和标准差;然后更新步骤1-3中的运动规划:
Figure FDA0004029856820000022
步骤2-2:生成执行动作策略;
采用跟踪控制的方法实现轨迹追踪:
Figure FDA0004029856820000023
其中
Figure FDA0004029856820000024
是t时刻的跟踪误差;
步骤2-3:计算动作策略的奖励函数;
从步骤2-2收集回来N段轨迹ρ:<ρ12,…,ρN>,构建奖励值
Figure FDA0004029856820000025
计算每次执行任务的奖励值
Figure FDA0004029856820000026
步骤2-4:关键特征参数的优化;
根据步骤2-3生成的奖励函数,采用梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
Figure FDA0004029856820000027
Figure FDA0004029856820000028
α=α0μ                       (7)
其中参数εμ代表人对参数迭代步长的判断,基于奖励值对应的参数值的情况做出的;
参数更新的公式如下:
μ←μ+αΔμ    (8)
σ←σ-Δσ-εσ    (9)
Figure FDA0004029856820000029
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整;越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回步骤2-1,直到奖励值稳定;
步骤3:仿真环境到实际操作环境技能转移部分;
步骤3-1:相似度函数的构建;
比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的数学特性,则直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,通过进行对比试验的方式获得;最终获得的KL散度矩阵如下,作为相似度的衡量指标:
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度;
步骤3-2:特征参数的筛选与转移;
衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
再与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R                         (11)
如果特征参数K对应的相对误差值大于等于阈值,则特征参数K作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,则不改变特征参数K的大小,直接转移到真实的环境中;得到真实环境中探索的特征参数:Kphysical
步骤3-3::运动规划的转移;
比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数;
步骤4:实际环境中的技能优化部分;
步骤4-1:生成与真实环境交互的动作策略;
使用高斯分布对特征参数Kphysical取N′个向量值,表示为:
Figure FDA0004029856820000031
更新运动规划:
Figure FDA0004029856820000032
采用式(4)的方法实现轨迹追踪;
步骤4-2:特征参数的优化;
构建奖励函数
Figure FDA0004029856820000033
根据式(5)~(10)的方法对特征参数进行更新;
一次更新完成后,返回步骤4-1,直到算法收敛,算法结束;
最终机器人系统得到在实际操作环境中的特征参数,进而掌握此项操作技能。
CN202211737858.7A 2022-12-30 2022-12-30 面向机器人操作技能学习的人员仿真现实混合训练方法 Pending CN116047904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211737858.7A CN116047904A (zh) 2022-12-30 2022-12-30 面向机器人操作技能学习的人员仿真现实混合训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211737858.7A CN116047904A (zh) 2022-12-30 2022-12-30 面向机器人操作技能学习的人员仿真现实混合训练方法

Publications (1)

Publication Number Publication Date
CN116047904A true CN116047904A (zh) 2023-05-02

Family

ID=86115892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211737858.7A Pending CN116047904A (zh) 2022-12-30 2022-12-30 面向机器人操作技能学习的人员仿真现实混合训练方法

Country Status (1)

Country Link
CN (1) CN116047904A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560239A (zh) * 2023-07-06 2023-08-08 华南理工大学 一种多智能体强化学习方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116560239A (zh) * 2023-07-06 2023-08-08 华南理工大学 一种多智能体强化学习方法、装置及介质
CN116560239B (zh) * 2023-07-06 2023-09-12 华南理工大学 一种多智能体强化学习方法、装置及介质

Similar Documents

Publication Publication Date Title
Bhattacharyya et al. Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning
Li et al. Learning the aerodynamic design of supercritical airfoils through deep reinforcement learning
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
US20220326664A1 (en) Improved machine learning for technical systems
CN108621159A (zh) 一种基于深度学习的机器人动力学建模方法
CN109522602A (zh) 一种基于代理模型的Modelica模型参数优化方法
Arruda et al. Uncertainty averse pushing with model predictive path integral control
CN109978012A (zh) 一种基于结合反馈的改进贝叶斯逆强化学习方法
Balakrishna et al. On-policy robot imitation learning from a converging supervisor
CN116047904A (zh) 面向机器人操作技能学习的人员仿真现实混合训练方法
CN112879024A (zh) 一种盾构姿态动态预测方法、系统及设备
CN103399488B (zh) 基于自学习的多模型控制方法
Rayyes et al. Learning inverse statics models efficiently with symmetry-based exploration
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
CN113641099B (zh) 一种超越专家演示的阻抗控制模仿学习训练方法
Baert et al. Maximum causal entropy inverse constrained reinforcement learning
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
Lee et al. Combining GRN modeling and demonstration-based programming for robot control
Zhao et al. Robotic peg-in-hole assembly based on reversible dynamic movement primitives and trajectory optimization
Kumar et al. Inverse design of airfoils using convolutional neural network and deep neural network
Chang et al. Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion
Liu et al. A Policy Searched-Based Optimization Algorithm for Obstacle Avoidance in Robot Manipulators
Wang et al. Learning automata based cooperative student-team in tutorial-like system
Subramanian Task space behavior learning for humanoid robots using Gaussian mixture models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination