CN116047904A - 面向机器人操作技能学习的人员仿真现实混合训练方法 - Google Patents
面向机器人操作技能学习的人员仿真现实混合训练方法 Download PDFInfo
- Publication number
- CN116047904A CN116047904A CN202211737858.7A CN202211737858A CN116047904A CN 116047904 A CN116047904 A CN 116047904A CN 202211737858 A CN202211737858 A CN 202211737858A CN 116047904 A CN116047904 A CN 116047904A
- Authority
- CN
- China
- Prior art keywords
- parameter
- environment
- parameters
- skill
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种面向机器人操作技能学习的人员仿真现实混合训练方法,首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成,使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段;其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法;之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移;最后构建了机器人技能学习与技能转移的逻辑框架,通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。
Description
技术领域
本发明属于机器人技术领域,具体涉及一种人员仿真现实混合训练方法。
背景技术
机器人操作技能的学习是当下一个很热门的话题,而强化学习及其衍生方法是机器人操作技能学习的一种主要手段。但强化学习也有固有的缺陷,这在机器人操作技能的学习过程中表现的尤为明显,主要包括学习效率低下、难以应用于真实场景、学习过程缺乏透明性等。随着技术的发展,使用人机混合训练的方式为解决上述问题带来的希望。
发明内容
为了克服现有技术的不足,本发明提供了一种面向机器人操作技能学习的人员仿真现实混合训练方法,首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成,使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段;其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法;之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移;最后构建了机器人技能学习与技能转移的逻辑框架,通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:操作过程预处理部分;
步骤1-1:划分操作过程阶段;
操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;
将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示;阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si) (I)
步骤1-2:明确阶段转移的约束条件;
如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示;转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断;
转换条件Ci表示为如下形式:
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态;
步骤1-3:生成机器人的动作规划;
阶段Gi看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,得到约束后的运动轨迹,用下式表示:
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件;所有动作规划的集合表示成:A=<A1,A2,…,An>;
步骤1-4:完成对关键特征参数的提取;
关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b;
步骤2:仿真环境中参数的优化部分;
步骤2-1:更新与仿真环境交互的运动规划;
步骤2-2:生成执行动作策略;
采用跟踪控制的方法实现轨迹追踪:
步骤2-3:计算动作策略的奖励函数;
步骤2-4:关键特征参数的优化;
根据步骤2-3生成的奖励函数,采用梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
α=α0+εμ (7)
其中参数εμ代表人对参数迭代步长的判断,基于奖励值对应的参数值的情况做出的;
参数更新的公式如下:
μ←μ+αΔμ (8)
σ←σ-Δσ-εσ (9)
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整;越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回步骤2-1,直到奖励值稳定;
步骤3:仿真环境到实际操作环境技能转移部分;
步骤3-1:相似度函数的构建;
比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的数学特性,则直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,通过进行对比试验的方式获得;最终获得的KL散度矩阵如下,作为相似度的衡量指标:
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度;
步骤3-2:特征参数的筛选与转移;
衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
再与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R (11)
如果特征参数K对应的相对误差值大于等于阈值,则特征参数K作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,则不改变特征参数K的大小,直接转移到真实的环境中;得到真实环境中探索的特征参数:Kphysical;
步骤3-3::运动规划的转移;
比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数;
步骤4:实际环境中的技能优化部分;
步骤4-1:生成与真实环境交互的动作策略;
步骤4-2:特征参数的优化;
一次更新完成后,返回步骤4-1,直到算法收敛,算法结束;
最终机器人系统得到在实际操作环境中的特征参数,进而掌握此项操作技能。
本发明的有益效果如下:
(1)本发明使用的基于规则的操作阶段任务划分可以有效提高机器人操作技能学习的可解释性,同时有效缩小了机器人参数探索的状态空间,具有更高的控制精度。
(2)本发明提出的融合人类指导的操作技能学习框架可以用较少的机械臂与环境交互次数实现多步骤复杂技能策略的学习,有效提高了机器人技能学习的效率。
(3)本发明提出的以相似度函数为核心的从仿真环境到实际操作环境的技能转移框架可以极大地提升实际操作过程中的安全性,最大程度地利用仿真环境得到的数据,降低了在实际操作环境中所需的训练时间。
附图说明
图1为本发明方法框架图。
图2为本发明方法流程图。
图3为本发明实施例七自由度机械臂插孔任务仿真场景示意图。
图4为本发明实施例七自由度机械臂插孔任务实际场景示意图。
图5为本发明实施例插孔操作阶段划分示意图。
图6为本发明实施例中仿真优化得到的tdown参数收敛示意图。
图7为本发明实施例中仿真优化得到的xdown参数收敛示意图。
图8为本发明实施例中仿真优化得到的tpara参数收敛示意图。
图9为本发明实施例中仿真优化得到的xpara参数收敛示意图。
图10为本发明实施例中仿真优化得到的奖励函数收敛示意图。
图11为本发明实施例中实际优化得到的参数收敛示意图。
图12为本发明实施例中实际优化得到的奖励函数收敛示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明旨在解决机器人在复杂操作技能学习的过程中使用传统学习算法带来的操作过程可解释性差、优化时间长,以及难以在实际场景中应用的问题,提出了一种融合人知识指导的、可实现从仿真环境到实际场景技能转移的机器人操作技能高效学习方法。
为达到上述目的,本发明所涉及的发明内容如下所示:
(1)基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成。本发明使用人的先验知识分析所要学习的操作技能的流程,把操作过程划分成若干阶段,每个阶段可以看成是一段点到点的运动轨迹;然后确定阶段之间的转换条件,转换条件是以“如果…那么…”这种规则形式定义的,表示环境对智能体的一种约束。
(2)构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法。本发明使用基于参数探索的策略梯度(PGPE)方法作为操作技能学习优化的基本方法,以奖励函数这个固定指标作为对操作者的反馈,采用专家偏好评价的方式调整探索参数的探索方差、学习率等参数,从而加快算法的收敛速度。
(3)构建了一种从仿真环境到实际场景的操作技能转移及评价框架。本发明通过构建相似度函数来衡量仿真环境与实际操作环境的差异,以相似度函数为依据,生成实际环境中的探索参数与动作指令,完成操作技能的转移。
(4)构建了机器人技能学习与技能转移的逻辑框架,如图1所示,可以通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。
本发明提供了一种面向机器人高效操作技能学习的人员-仿真-现实混合训练方法,如图2所示,对操作技能过程进行分析,研究操作阶段的划分、关键特征的提取、强化学习策略优化、技能的转移以及实际操作场景中技能的优化等关键技术,本发明的具体实施步骤如下所示:
首先是操作过程预处理部分,主要包括四步:
第一步:划分操作过程阶段。操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;对于绝大部分操作任务来说,都不是能够仅通过一段简单的运动轨迹就能完成的,因此要想能够高效地完成某项操作任务,对操作过程阶段的划分是必要的。可以根据人类通过观察获得的先验知识,将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态可以表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态可以将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示。阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si) (1)
操作阶段的描述为自然语言描述,其意图主要是使观察者能够理解这一阶段机器人的动作所造成的影响。
第二步:在第一步的基础上,明确阶段转移的约束条件。如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示。转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断。
转移条件的描述为融合定量表达的规则式语言描述。规则式语言的语法形式形如:“如果…那么…”这种逻辑语言所示,其目的是定义一个状态到判断变量的非线性映射,故转换条件Ci可以表示为如下形式:
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态。
第三步:在第一、二步的基础上,生成机器人的动作规划。阶段Gi可以看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,可以得到约束后的运动轨迹,用下式表示:
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件。所有动作规划的集合表示成:A=<A1,A2,…,An>。
第四步:在第一、二、三步的基础上,完成对关键特征参数的提取。关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b。
其次是仿真环境中参数的优化部分,主要包括以下四步:
第六步:生成执行动作策略。根据第五步生成的运动规划Aθ,采用跟踪控制的方法实现轨迹追踪:
第八步:关键特征参数的优化。根据第七步生成的奖励函数,根据梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
其中参数εμ代表人对参数迭代步长的一个判断,这个判断是基于奖励值对应的参数值的情况做出的。
参数更新的公式如下:
μ←μ+αΔμ (8)
σ←σ-Δσ-εσ (9)
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整,一般来说,越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回第五步,直到奖励值相对稳定。
然后是仿真环境到实际操作环境技能转移部分,主要包括以下三步:
第九步:相似度函数的构建。比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的精确的数学特性,可以直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,可以通过进行对比试验的方式获得。最终获得的KL散度矩阵如下,作为相似度的衡量指标。
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度。
第十步:特征参数的筛选与转移。在第九步的基础上,衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R (11)
如果此特征参数对应的相对误差值较大,说明仿真环境得到的结果不可靠,此特征参数会作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,不改变原特征参数的大小,直接转移到真实的环境中。得到真实环境中探索的特征参数:Kphysical。
第十一步:运动规划的转移。在第十步的基础上,比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数,实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。
最后是实际环境中的技能优化部分,主要包括以下两步:
一次更新完成后,返回第十二步,直到算法收敛,算法结束。最终机器人系统会得到在实际操作环境中较为理想的特征参数,进而掌握此项操作技能。
具体实施例:
为证明本发明所提出的面向机器人高效操作技能学习的人员-仿真-现实混合训练系统的有效性,使用七自由度机械臂插孔操作技能的学习来进行验证,七自由度机械臂选择使用KUKA iiwa机械臂;孔和插销的截面形状为圆形,半径分别为:插销29.8mm,孔30.3mm。仿真操作场景如图3所示,使用Issac Sim仿真环境构建;实际操作场景如图4所示。具体实施流程如下所示:
1)划分操作过程阶段。根据人的先验知识,将插孔过程根据接触状态分成以下5个阶段:初始对准、下降接触、水平移动、调姿、插入,如图5所示。
2)在第一步的基础上,明确阶段转移的约束条件。五个阶段相应会生成四个转移条件,用规则语言描述如下:
C1:如果插销末端位姿满足:<X0,φ0>,那么进入“下降接触”阶段。
C2:插销末端力满足:Fz>εz,那么进入“水平移动”阶段。
C3:如果插销力和速度满足:Fy>εy and vy<∈y,那么进入“调姿”阶段
令<X0,φ0>为孔平面上方固定位置,取εz=3.8N,εy=5N,∈y=0.01m/s。
3)在第一、二步的基础上,生成机器人的动作规划。使用“最小抖动轨迹”作为动作规划的基本形式,它可以实现运动过程中速度的抖动程度最小,表达式为: 选定初始位置di,终止位置df,运行时间tf,就可以确定一条轨迹。
4)在第一、二、三步的基础上,完成对关键特征参数的提取。考虑到操作技能学习的目的是快速且安全地完成此项任务,故选取了如下四个上层控制参数:下降时间tdown、下降距离xdown、水平移动距离xpara、水平移动时间tpara。
6)生成执行动作策略。采用计算逆运动学的方式实现机械臂末端对运动轨迹的追踪。计算当前的位置误差采用式进行控制,取竖直和水平方向的控制参数为:Kp=[10000,5000],KI=[50,50],KD=[1000,1000]。
7)计算动作策略的奖励函数。从第六步收集回来N段轨迹ρ:<ρ1,ρ2,…,ρN>,奖励值的构建如下所示:
8)关键特征参数的优化。使用梯度上升算法计算奖励值对特征参数方差和标准差的梯度,根据式(5)~(7)估计每一次迭代的学习率,使得每一次参数迭代的变化量不超过最大变化量的10%。
探索参数的方差根据式(9)计算,且每隔20次迭代将探索方差缩小为原值的一半。
仿真环境中参数迭代80次后基本稳定,四个探索参数迭代的图像如图6~图9所示;奖励函数的变化曲线如图10所示。
9)相似度函数的构建。与下降时间tdown和下降距离xdown相关的动力学参数是孔平面的竖直弹性模量;与水平移动距离xpara和水平移动时间tpara相关的动力学参数是摩擦系数与水平弹性模量。由于这些参数都无法得到其精确的微分方程,故只能通过估计的方式获得其分布。本专利使用竖直方向上不加反馈的稳定接触力作为数值弹性模量的估计;使用平均水平移动速度作为摩擦系数的估计;使用水平方向上不加反馈的稳定接触力作为水平弹性模量的估计。
经过实际演示验证:仿真环境中的竖直方向接触力达到140N±5N;真实环境中为41N±10N;仿真环境中平均水平移动速度为30mm/s±0.5mm/s;真实环境中平均水平移动速度为27.5mm/s±1.2mm/s;仿真环境中的水平方向接触力达到14.8N±1.3N;真实环境中的水平方向接触力达到15.3N±4.5N。
计算得到参数的KL散度矩阵为:
R=[49.3231,2.6324,0.7896]T
10)特征参数的筛选与转移:对探索参数赋予动力学参数重要性权重:tdown=xdown=[1,0,0]T;xpara=tpara=[0,0.5,0.5]T,使用式(10)计算结果如下所示:
E(tdown)=E(xdown)=49.3231
E(tpara)=E(xpara)=1.7110
可以看到,下降时间tdown与下降距离xdown的误差参数计算结果远大于其余两个参数,故需作为在实际环境中进一步探索的参数Kphysical;参数xpara和tpara误差参数较小,可以使用仿真优化得到的参数。
11)运动规划的转移。比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数,实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。实际机械臂使用阻抗控制运动模式,为了实现机械臂的精确运动跟踪,通过调试,取竖直和水平方向的阻抗控制参数分别为:3000N/m,1000N/m。
经过5次迭代后,奖励值接近最优值。实际环境中参数迭代的结果如图11所示,奖励函数变化曲线如图12所示。
Claims (1)
1.一种面向机器人操作技能学习的人员仿真现实混合训练方法,其特征在于,包括以下步骤:
步骤1:操作过程预处理部分;
步骤1-1:划分操作过程阶段;
操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间,用集合S来表示;
将完成操作任务所需的全部中间状态提取出来,设有n个中间状态,从而全部中间状态表示为:<S0,S1,S2,…,Sn>,依据这n个中间状态将全部操作过程划分为n个阶段,用<G1,G2,…,Gn>表示;阶段Gi表示从状态Si-1到状态Si的一个状态转化,用下式表示:
Gi=trigger(Si-1,Si) (1)
步骤1-2:明确阶段转移的约束条件;
如果有n个操作过程阶段,就会相应生成n-1个转换条件判断函数,用<C1,C2,…,Cn>表示;转换条件Ci表示对阶段Gi-1的状态是否满足阶段Gi条件的一个判断;
转换条件Ci表示为如下形式:
其中conditions(Si)∈Si,表示阶段Gi所必须满足的状态;
步骤1-3:生成机器人的动作规划;
阶段Gi看成是一段点到点的运动轨迹,机器人根据环境的约束条件和任务要求,得到约束后的运动轨迹,用下式表示:
其中参数Wi=<wi1,wi2,…,wim>表示运动轨迹生成所需的参数,bi表示约束条件;所有动作规划的集合表示成:A=<A1,A2,…,An>;
步骤1-4:完成对关键特征参数的提取;
关键特征参数就是优化算法要优化的参数,用符号K表示,参数的选取范围包括:conditions(S)、W、b;
步骤2:仿真环境中参数的优化部分;
步骤2-1:更新与仿真环境交互的运动规划;
步骤2-2:生成执行动作策略;
采用跟踪控制的方法实现轨迹追踪:
步骤2-3:计算动作策略的奖励函数;
步骤2-4:关键特征参数的优化;
根据步骤2-3生成的奖励函数,采用梯度上升算法计算奖励值对特征参数方差的梯度,然后通过如下公式对参数更新的学习率α进行调节:
α=α0+εμ (7)
其中参数εμ代表人对参数迭代步长的判断,基于奖励值对应的参数值的情况做出的;
参数更新的公式如下:
μ←μ+αΔμ (8)
σ←σ-Δσ-εσ (9)
其中参数Δσ为定值,参数εσ根据操作任务的实际情况调整;越靠近最大奖励值点,参数εσ越小;
一次更新完成后,返回步骤2-1,直到奖励值稳定;
步骤3:仿真环境到实际操作环境技能转移部分;
步骤3-1:相似度函数的构建;
比较仿真环境与实际环境的动力学参数的相似程度,如果已知此参数的数学特性,则直接计算仿真环境与真实环境中此参数特性分布的KL散度;否则,需要估计此参数的动力学特性,通过进行对比试验的方式获得;最终获得的KL散度矩阵如下,作为相似度的衡量指标:
R=[D(x1,x′1),D(x2,x′2),…,D(xp,x′p),…]T
其中D(xp,x′p)为动力学参数xp在仿真与现实中特性的KL散度;
步骤3-2:特征参数的筛选与转移;
衡量每一个特征参数K涉及到的环境动力学参数,根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w,列写重要性权重矩阵W:
W=[w1,w2,…,wp,…]T
再与相似度函数矩阵对应项相乘,获得此特征参数仿真环境与真实环境的相对误差值:
E(K)=WT*R (11)
如果特征参数K对应的相对误差值大于等于阈值,则特征参数K作为真实环境中需要进一步探索的参数;如果相对误差值小于阈值,则不改变特征参数K的大小,直接转移到真实的环境中;得到真实环境中探索的特征参数:Kphysical;
步骤3-3::运动规划的转移;
比较仿真与实际环境的空间特征,对照仿真环境的标准设计实际机器人的控制参数;
步骤4:实际环境中的技能优化部分;
步骤4-1:生成与真实环境交互的动作策略;
步骤4-2:特征参数的优化;
一次更新完成后,返回步骤4-1,直到算法收敛,算法结束;
最终机器人系统得到在实际操作环境中的特征参数,进而掌握此项操作技能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737858.7A CN116047904A (zh) | 2022-12-30 | 2022-12-30 | 面向机器人操作技能学习的人员仿真现实混合训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737858.7A CN116047904A (zh) | 2022-12-30 | 2022-12-30 | 面向机器人操作技能学习的人员仿真现实混合训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116047904A true CN116047904A (zh) | 2023-05-02 |
Family
ID=86115892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211737858.7A Pending CN116047904A (zh) | 2022-12-30 | 2022-12-30 | 面向机器人操作技能学习的人员仿真现实混合训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116047904A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116560239A (zh) * | 2023-07-06 | 2023-08-08 | 华南理工大学 | 一种多智能体强化学习方法、装置及介质 |
-
2022
- 2022-12-30 CN CN202211737858.7A patent/CN116047904A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116560239A (zh) * | 2023-07-06 | 2023-08-08 | 华南理工大学 | 一种多智能体强化学习方法、装置及介质 |
CN116560239B (zh) * | 2023-07-06 | 2023-09-12 | 华南理工大学 | 一种多智能体强化学习方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Learning the aerodynamic design of supercritical airfoils through deep reinforcement learning | |
CN110238839B (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
Bhattacharyya et al. | Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning | |
Badgwell et al. | Reinforcement learning–overview of recent progress and implications for process control | |
US20220326664A1 (en) | Improved machine learning for technical systems | |
CN109522602A (zh) | 一种基于代理模型的Modelica模型参数优化方法 | |
CN109978012A (zh) | 一种基于结合反馈的改进贝叶斯逆强化学习方法 | |
CN113641099B (zh) | 一种超越专家演示的阻抗控制模仿学习训练方法 | |
CN111415010A (zh) | 一种基于贝叶斯神经网络的风电机组参数辨识方法 | |
Balakrishna et al. | On-policy robot imitation learning from a converging supervisor | |
CN112879024A (zh) | 一种盾构姿态动态预测方法、系统及设备 | |
CN116047904A (zh) | 面向机器人操作技能学习的人员仿真现实混合训练方法 | |
CN103399488B (zh) | 基于自学习的多模型控制方法 | |
Rayyes et al. | Learning inverse statics models efficiently with symmetry-based exploration | |
Jiang et al. | Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle | |
Baert et al. | Maximum causal entropy inverse constrained reinforcement learning | |
Chang et al. | Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion | |
Zhao et al. | Robotic peg-in-hole assembly based on reversible dynamic movement primitives and trajectory optimization | |
CN117057265A (zh) | 一种基于迁移学习和离散物理信息神经网络的流场预测方法 | |
Xing et al. | A brain-inspired approach for probabilistic estimation and efficient planning in precision physical interaction | |
CN114967472A (zh) | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 | |
CN114491790A (zh) | 一种基于maml的气动建模方法及系统 | |
Qian et al. | PianoMime: Learning a Generalist, Dexterous Piano Player from Internet Demonstrations | |
Subramanian | Task space behavior learning for humanoid robots using Gaussian mixture models | |
Wang et al. | Learning automata based cooperative student-team in tutorial-like system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |