CN116047904A

CN116047904A - 面向机器人操作技能学习的人员仿真现实混合训练方法

Info

Publication number: CN116047904A
Application number: CN202211737858.7A
Authority: CN
Inventors: 刘星; 黄攀峰; 王高照; 刘正雄; 常海涛; 马志强
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-02

Abstract

本发明公开了一种面向机器人操作技能学习的人员仿真现实混合训练方法，首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成，使用人的先验知识分析所要学习的操作技能的流程，把操作过程划分成若干阶段；其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法；之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架，以相似度函数为依据，生成实际环境中的探索参数与动作指令，完成操作技能的转移；最后构建了机器人技能学习与技能转移的逻辑框架，通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。

Description

面向机器人操作技能学习的人员仿真现实混合训练方法

技术领域

本发明属于机器人技术领域，具体涉及一种人员仿真现实混合训练方法。

背景技术

机器人操作技能的学习是当下一个很热门的话题，而强化学习及其衍生方法是机器人操作技能学习的一种主要手段。但强化学习也有固有的缺陷，这在机器人操作技能的学习过程中表现的尤为明显，主要包括学习效率低下、难以应用于真实场景、学习过程缺乏透明性等。随着技术的发展，使用人机混合训练的方式为解决上述问题带来的希望。

发明内容

为了克服现有技术的不足，本发明提供了一种面向机器人操作技能学习的人员仿真现实混合训练方法，首先进行基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成，使用人的先验知识分析所要学习的操作技能的流程，把操作过程划分成若干阶段；其次构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法；之后构建了一种从仿真环境到实际场景的操作技能转移及评价框架，以相似度函数为依据，生成实际环境中的探索参数与动作指令，完成操作技能的转移；最后构建了机器人技能学习与技能转移的逻辑框架，通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。本发明有效提高了机器人技能学习的效率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：操作过程预处理部分；

步骤1-1：划分操作过程阶段；

操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间，用集合S来表示；

将完成操作任务所需的全部中间状态提取出来，设有n个中间状态，从而全部中间状态表示为：<S₀,S₁,S₂,…,S_n>，依据这n个中间状态将全部操作过程划分为n个阶段，用<G₁,G₂,…,G_n>表示；阶段G_i表示从状态S_i-1到状态S_i的一个状态转化，用下式表示：

G_i＝trigger(S_i-1,S_i) (I)

步骤1-2：明确阶段转移的约束条件；

如果有n个操作过程阶段，就会相应生成n-1个转换条件判断函数，用<C₁,C₂,…,C_n>表示；转换条件C_i表示对阶段G_i-1的状态是否满足阶段G_i条件的一个判断；

转换条件C_i表示为如下形式：

其中conditions(S_i)∈S_i，表示阶段G_i所必须满足的状态；

步骤1-3：生成机器人的动作规划；

阶段G_i看成是一段点到点的运动轨迹，机器人根据环境的约束条件和任务要求，得到约束后的运动轨迹，用下式表示：

其中参数W_i＝<w_i1,w_i2,…,w_im>表示运动轨迹生成所需的参数，b_i表示约束条件；所有动作规划的集合表示成：A＝<A₁,A₂,…,A_n>；

步骤1-4：完成对关键特征参数的提取；

关键特征参数就是优化算法要优化的参数，用符号K表示，参数的选取范围包括：conditions(S)、W、b；

步骤2：仿真环境中参数的优化部分；

步骤2-1：更新与仿真环境交互的运动规划；

使用高斯分布对特征参数K取N个向量值，表示为：

其中μ和σ分别为特征参数高斯分布的均值和标准差；然后更新步骤1-3中的运动规划：

步骤2-2：生成执行动作策略；

采用跟踪控制的方法实现轨迹追踪：

其中

是t时刻的跟踪误差；

步骤2-3：计算动作策略的奖励函数；

从步骤2-2收集回来N段轨迹ρ:<ρ₁,ρ₂,…,ρ_N>，构建奖励值

计算每次执行任务的奖励值

步骤2-4：关键特征参数的优化；

根据步骤2-3生成的奖励函数，采用梯度上升算法计算奖励值对特征参数方差的梯度，然后通过如下公式对参数更新的学习率α进行调节：

α＝α₀+ε_μ (7)

其中参数ε_μ代表人对参数迭代步长的判断，基于奖励值对应的参数值的情况做出的；

参数更新的公式如下：

μ←μ+αΔμ (8)

σ←σ-Δσ-ε_σ (9)

其中参数Δσ为定值，参数ε_σ根据操作任务的实际情况调整；越靠近最大奖励值点，参数ε_σ越小；

一次更新完成后，返回步骤2-1，直到奖励值稳定；

步骤3：仿真环境到实际操作环境技能转移部分；

步骤3-1：相似度函数的构建；

比较仿真环境与实际环境的动力学参数的相似程度，如果已知此参数的数学特性，则直接计算仿真环境与真实环境中此参数特性分布的KL散度；否则，需要估计此参数的动力学特性，通过进行对比试验的方式获得；最终获得的KL散度矩阵如下，作为相似度的衡量指标：

R＝[D(x₁,x′₁),D(x₂,x′₂),…,D(x_p,x′_p),…]^T

其中D(x_p,x′_p)为动力学参数x_p在仿真与现实中特性的KL散度；

步骤3-2：特征参数的筛选与转移；

衡量每一个特征参数K涉及到的环境动力学参数，根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w，列写重要性权重矩阵W：

W＝[w₁,w₂,…,w_p,…]^T

再与相似度函数矩阵对应项相乘，获得此特征参数仿真环境与真实环境的相对误差值：

E(K)＝W^T*R (11)

如果特征参数K对应的相对误差值大于等于阈值，则特征参数K作为真实环境中需要进一步探索的参数；如果相对误差值小于阈值，则不改变特征参数K的大小，直接转移到真实的环境中；得到真实环境中探索的特征参数：K_physical；

步骤3-3：：运动规划的转移；

比较仿真与实际环境的空间特征，对照仿真环境的标准设计实际机器人的控制参数；

步骤4：实际环境中的技能优化部分；

步骤4-1：生成与真实环境交互的动作策略；

使用高斯分布对特征参数K_physical取N′个向量值，表示为：

更新运动规划：

采用式(4)的方法实现轨迹追踪；

步骤4-2：特征参数的优化；

构建奖励函数

根据式(5)～(10)的方法对特征参数进行更新；

一次更新完成后，返回步骤4-1，直到算法收敛，算法结束；

最终机器人系统得到在实际操作环境中的特征参数，进而掌握此项操作技能。

本发明的有益效果如下：

(1)本发明使用的基于规则的操作阶段任务划分可以有效提高机器人操作技能学习的可解释性，同时有效缩小了机器人参数探索的状态空间，具有更高的控制精度。

(2)本发明提出的融合人类指导的操作技能学习框架可以用较少的机械臂与环境交互次数实现多步骤复杂技能策略的学习，有效提高了机器人技能学习的效率。

(3)本发明提出的以相似度函数为核心的从仿真环境到实际操作环境的技能转移框架可以极大地提升实际操作过程中的安全性，最大程度地利用仿真环境得到的数据，降低了在实际操作环境中所需的训练时间。

附图说明

图1为本发明方法框架图。

图2为本发明方法流程图。

图3为本发明实施例七自由度机械臂插孔任务仿真场景示意图。

图4为本发明实施例七自由度机械臂插孔任务实际场景示意图。

图5为本发明实施例插孔操作阶段划分示意图。

图6为本发明实施例中仿真优化得到的t_down参数收敛示意图。

图7为本发明实施例中仿真优化得到的x_down参数收敛示意图。

图8为本发明实施例中仿真优化得到的t_para参数收敛示意图。

图9为本发明实施例中仿真优化得到的x_para参数收敛示意图。

图10为本发明实施例中仿真优化得到的奖励函数收敛示意图。

图11为本发明实施例中实际优化得到的参数收敛示意图。

图12为本发明实施例中实际优化得到的奖励函数收敛示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明旨在解决机器人在复杂操作技能学习的过程中使用传统学习算法带来的操作过程可解释性差、优化时间长，以及难以在实际场景中应用的问题，提出了一种融合人知识指导的、可实现从仿真环境到实际场景技能转移的机器人操作技能高效学习方法。

为达到上述目的，本发明所涉及的发明内容如下所示：

(1)基于规则知识指导的复杂操作任务阶段的划分及运动规划的生成。本发明使用人的先验知识分析所要学习的操作技能的流程，把操作过程划分成若干阶段，每个阶段可以看成是一段点到点的运动轨迹；然后确定阶段之间的转换条件，转换条件是以“如果…那么…”这种规则形式定义的，表示环境对智能体的一种约束。

(2)构建了融合专家偏好评价和固定指标评价的操作技能学习优化方法。本发明使用基于参数探索的策略梯度(PGPE)方法作为操作技能学习优化的基本方法，以奖励函数这个固定指标作为对操作者的反馈，采用专家偏好评价的方式调整探索参数的探索方差、学习率等参数，从而加快算法的收敛速度。

(3)构建了一种从仿真环境到实际场景的操作技能转移及评价框架。本发明通过构建相似度函数来衡量仿真环境与实际操作环境的差异，以相似度函数为依据，生成实际环境中的探索参数与动作指令，完成操作技能的转移。

(4)构建了机器人技能学习与技能转移的逻辑框架，如图1所示，可以通过迭代的方法渐次提升机器人操作技能学习的完成度和技能转移的完整度。

本发明提供了一种面向机器人高效操作技能学习的人员-仿真-现实混合训练方法，如图2所示，对操作技能过程进行分析，研究操作阶段的划分、关键特征的提取、强化学习策略优化、技能的转移以及实际操作场景中技能的优化等关键技术，本发明的具体实施步骤如下所示：

首先是操作过程预处理部分，主要包括四步：

第一步：划分操作过程阶段。操作过程涉及到的环境和机器人的所有运动学和动力学参数的集合称为状态空间，用集合S来表示；对于绝大部分操作任务来说，都不是能够仅通过一段简单的运动轨迹就能完成的，因此要想能够高效地完成某项操作任务，对操作过程阶段的划分是必要的。可以根据人类通过观察获得的先验知识，将完成操作任务所需的全部中间状态提取出来，设有n个中间状态，从而全部中间状态可以表示为：<S₀,S₁,S₂,…,S_n>，依据这n个中间状态可以将全部操作过程划分为n个阶段，用<G₁,G₂,…,G_n>表示。阶段G_i表示从状态S_i-1到状态S_i的一个状态转化，用下式表示：

G_i＝trigger(S_i-1,S_i) (1)

操作阶段的描述为自然语言描述，其意图主要是使观察者能够理解这一阶段机器人的动作所造成的影响。

第二步：在第一步的基础上，明确阶段转移的约束条件。如果有n个操作过程阶段，就会相应生成n-1个转换条件判断函数，用<C₁,C₂,…,C_n>表示。转换条件C_i表示对阶段G_i-1的状态是否满足阶段G_i条件的一个判断。

转移条件的描述为融合定量表达的规则式语言描述。规则式语言的语法形式形如：“如果…那么…”这种逻辑语言所示，其目的是定义一个状态到判断变量的非线性映射，故转换条件C_i可以表示为如下形式：

其中conditions(S_i)∈S_i，表示阶段G_i所必须满足的状态。

第三步：在第一、二步的基础上，生成机器人的动作规划。阶段G_i可以看成是一段点到点的运动轨迹，机器人根据环境的约束条件和任务要求，可以得到约束后的运动轨迹，用下式表示：

其中参数W_i＝<w_i1,w_i2,…,w_im>表示运动轨迹生成所需的参数，b_i表示约束条件。所有动作规划的集合表示成：A＝<A₁,A₂,…,A_n>。

第四步：在第一、二、三步的基础上，完成对关键特征参数的提取。关键特征参数就是优化算法要优化的参数，用符号K表示，参数的选取范围包括：conditions(S)、W、b。

其次是仿真环境中参数的优化部分，主要包括以下四步：

第五步：更新与仿真环境交互的运动规划。在前四步的基础上，本方法使用高斯分布对特征参数K取N个向量值，表示为：

其中μ和σ分别为特征参数高斯分布的均值和标准差。然后更新步骤三中的运动规划：

第六步：生成执行动作策略。根据第五步生成的运动规划A^θ，采用跟踪控制的方法实现轨迹追踪：

其中

是t时刻的跟踪误差。

第七步：计算动作策略的奖励函数。从第六步收集回来N段轨迹ρ:<ρ₁,ρ₂,…,ρ_N>，构建奖励值

计算每次执行任务的奖励值

第八步：关键特征参数的优化。根据第七步生成的奖励函数，根据梯度上升算法计算奖励值对特征参数方差的梯度，然后通过如下公式对参数更新的学习率α进行调节：

其中参数ε_μ代表人对参数迭代步长的一个判断，这个判断是基于奖励值对应的参数值的情况做出的。

参数更新的公式如下：

μ←μ+αΔμ (8)

σ←σ-Δσ-ε_σ (9)

其中参数Δσ为定值，参数ε_σ根据操作任务的实际情况调整，一般来说，越靠近最大奖励值点，参数ε_σ越小；

一次更新完成后，返回第五步，直到奖励值相对稳定。

然后是仿真环境到实际操作环境技能转移部分，主要包括以下三步：

第九步：相似度函数的构建。比较仿真环境与实际环境的动力学参数的相似程度，如果已知此参数的精确的数学特性，可以直接计算仿真环境与真实环境中此参数特性分布的KL散度；否则，需要估计此参数的动力学特性，可以通过进行对比试验的方式获得。最终获得的KL散度矩阵如下，作为相似度的衡量指标。

R＝[D(x₁,x′₁),D(x₂,x′₂),…,D(x_p,x′_p),…]^T

其中D(x_p,x′_p)为动力学参数x_p在仿真与现实中特性的KL散度。

第十步：特征参数的筛选与转移。在第九步的基础上，衡量每一个特征参数K涉及到的环境动力学参数，根据每一个动力学参数对特征参数的重要程度赋予其重要性权值w，列写重要性权重矩阵W：

W＝[w₁,w₂,…,w_p,…]^T

与相似度函数矩阵对应项相乘，获得此特征参数仿真环境与真实环境的相对误差值：

E(K)＝W^T*R (11)

如果此特征参数对应的相对误差值较大，说明仿真环境得到的结果不可靠，此特征参数会作为真实环境中需要进一步探索的参数；如果相对误差值小于阈值，不改变原特征参数的大小，直接转移到真实的环境中。得到真实环境中探索的特征参数：K_physical。

第十一步：运动规划的转移。在第十步的基础上，比较仿真与实际环境的空间特征，对照仿真环境的标准设计实际机器人的控制参数，实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。

最后是实际环境中的技能优化部分，主要包括以下两步：

第十二步：生成与真实环境交互的动作策略。使用高斯分布对特征参数K_physical取N′个向量值，表示为：

更新运动规划：

采用式(4)的方法实现轨迹追踪。

第十三步：特征参数的优化。构建奖励函数

根据式(5)～(9)的方法对特征参数进行更新。

一次更新完成后，返回第十二步，直到算法收敛，算法结束。最终机器人系统会得到在实际操作环境中较为理想的特征参数，进而掌握此项操作技能。

具体实施例：

为证明本发明所提出的面向机器人高效操作技能学习的人员-仿真-现实混合训练系统的有效性，使用七自由度机械臂插孔操作技能的学习来进行验证，七自由度机械臂选择使用KUKA iiwa机械臂；孔和插销的截面形状为圆形，半径分别为：插销29.8mm，孔30.3mm。仿真操作场景如图3所示，使用Issac Sim仿真环境构建；实际操作场景如图4所示。具体实施流程如下所示：

1)划分操作过程阶段。根据人的先验知识，将插孔过程根据接触状态分成以下5个阶段：初始对准、下降接触、水平移动、调姿、插入，如图5所示。

2)在第一步的基础上，明确阶段转移的约束条件。五个阶段相应会生成四个转移条件，用规则语言描述如下：

C₁:如果插销末端位姿满足：<X₀,φ₀>，那么进入“下降接触”阶段。

C₂:插销末端力满足：F_z>ε_z，那么进入“水平移动”阶段。

C₃:如果插销力和速度满足：F_y>ε_y and v_y<∈_y，那么进入“调姿”阶段

C₄:如果插销末端姿态满足：

那么进入“插入”阶段。

令<X₀,φ₀>为孔平面上方固定位置，取ε_z＝3.8N，ε_y＝5N，∈_y＝0.01m/s。

3)在第一、二步的基础上，生成机器人的动作规划。使用“最小抖动轨迹”作为动作规划的基本形式，它可以实现运动过程中速度的抖动程度最小，表达式为：

选定初始位置d_i，终止位置d_f，运行时间t_f，就可以确定一条轨迹。

4)在第一、二、三步的基础上，完成对关键特征参数的提取。考虑到操作技能学习的目的是快速且安全地完成此项任务，故选取了如下四个上层控制参数：下降时间t_down、下降距离x_down、水平移动距离x_para、水平移动时间t_para。

5)更新与仿真环境交互的运动规划。使用高斯分布对特征参数K取N＝20个向量值，表示为：

初值分别取为：

根据阶段划分和每一阶段的运动轨迹，生成

6)生成执行动作策略。采用计算逆运动学的方式实现机械臂末端对运动轨迹的追踪。计算当前的位置误差

采用式

进行控制，取竖直和水平方向的控制参数为：K_p＝[10000,5000]，K_I＝[50,50]，K_D＝[1000,1000]。

7)计算动作策略的奖励函数。从第六步收集回来N段轨迹ρ:<ρ₁,ρ₂,…,ρ_N>，奖励值的构建如下所示：

机械臂受力部分：

时间部分：

成败部分：

计算每次执行任务的奖励值

8)关键特征参数的优化。使用梯度上升算法计算奖励值对特征参数方差和标准差的梯度，根据式(5)～(7)估计每一次迭代的学习率，使得每一次参数迭代的变化量不超过最大变化量的10％。

探索参数的方差根据式(9)计算，且每隔20次迭代将探索方差缩小为原值的一半。

仿真环境中参数迭代80次后基本稳定，四个探索参数迭代的图像如图6～图9所示；奖励函数的变化曲线如图10所示。

9)相似度函数的构建。与下降时间t_down和下降距离x_down相关的动力学参数是孔平面的竖直弹性模量；与水平移动距离x_para和水平移动时间t_para相关的动力学参数是摩擦系数与水平弹性模量。由于这些参数都无法得到其精确的微分方程，故只能通过估计的方式获得其分布。本专利使用竖直方向上不加反馈的稳定接触力作为数值弹性模量的估计；使用平均水平移动速度作为摩擦系数的估计；使用水平方向上不加反馈的稳定接触力作为水平弹性模量的估计。

经过实际演示验证：仿真环境中的竖直方向接触力达到140N±5N；真实环境中为41N±10N；仿真环境中平均水平移动速度为30mm/s±0.5mm/s；真实环境中平均水平移动速度为27.5mm/s±1.2mm/s；仿真环境中的水平方向接触力达到14.8N±1.3N；真实环境中的水平方向接触力达到15.3N±4.5N。

计算得到参数的KL散度矩阵为：

R＝[49.3231,2.6324,0.7896]^T

10)特征参数的筛选与转移：对探索参数赋予动力学参数重要性权重：t_down＝x_down＝[1,0,0]^T；x_para＝t_para＝[0,0.5,0.5]^T，使用式(10)计算结果如下所示：

E(t_down)＝E(x_down)＝49.3231

E(t_para)＝E(x_para)＝1.7110

可以看到，下降时间t_down与下降距离x_down的误差参数计算结果远大于其余两个参数，故需作为在实际环境中进一步探索的参数K_physical；参数x_para和t_para误差参数较小，可以使用仿真优化得到的参数。

11)运动规划的转移。比较仿真与实际环境的空间特征，对照仿真环境的标准设计实际机器人的控制参数，实现真实与仿真中机器人系统的运动时间、跟踪精度、控制收敛时间等性能指标尽可能相似。实际机械臂使用阻抗控制运动模式，为了实现机械臂的精确运动跟踪，通过调试，取竖直和水平方向的阻抗控制参数分别为：3000N/m，1000N/m。

12)生成与真实环境交互的动作策略。使用高斯分布对特征参数K_physical取N′＝10个向量值，表示为：

更新运动规划：

13)特征参数的优化。构建奖励函数

根据式(5)～(10)的方法对特征参数进行更新。

经过5次迭代后，奖励值接近最优值。实际环境中参数迭代的结果如图11所示，奖励函数变化曲线如图12所示。