CN116107204A

CN116107204A - 一种基于教与学模态的机器人恒力跟踪方法

Info

Publication number: CN116107204A
Application number: CN202310103955.9A
Authority: CN
Inventors: 段晋军; 崔坤坤; 郭安; 姜锦程; 孙伟栋; 王文龙; 戴振东
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-05-12

Abstract

本发明公开了一种基于教与学模态的机器人恒力跟踪方法，涉及机器人控制技术领域。包括以下步骤：通过环境中曲面的型值点拟合机器人的运动轨迹，融合阻抗控制算法实现机器人的位置‑力混合控制；基于位置‑力混合控制遍历环境中的复杂曲面，记录机器人末端的运动轨迹和末端接触力；通过强化学习算法优化机器人末端运动轨迹；基于优化后的轨迹作为机器人运动的轨迹约束，实现机器人的恒力接触作业任务。基于力/位混合控制框架实现位置‑力混合控制的恒力跟踪，遍历未知环境中的复杂曲面后，通过学习算法优化机器人的运动轨迹，降低环境不确定性和拟合轨迹误差导致的恒力跟踪精度差的问题，使之能适用于位置环境的机器人恒力接触作业任务。

Description

一种基于教与学模态的机器人恒力跟踪方法

技术领域

本发明属于机器人控制技术领域，尤其涉及一种基于教与学模态的机器人恒力跟踪方法。

背景技术

目前提出的恒力跟踪策略在大部分情况下，环境中曲面的刚度和位置是不确定的，容易影响机器人恒力跟踪时的精度，无法满足精度要求较高的恒力跟踪场景，而在精度要求较高的机器人接触作业情景中，需要严格控制机器人末端接触力的波动。

由于未知环境中曲面的位置和刚度都是不确定的，容易影响机器人的恒力跟踪效果。为此需要对传统的基于柔顺控制的恒力跟踪策略进行改进，针对以上问题，现提出一种基于教与学模态的机器人恒力跟踪方法，通过学习的方法修正机器人末端的跟踪轨迹，间接保证恒力跟踪精度和稳定性。

发明内容

本发明的目的是针对现有的问题，提供了一种基于教与学模态的机器人恒力跟踪方法，以解决接触作业时机器人末端接触力的稳定性。

本发明是通过以下技术方案实现的：一种基于教与学模态的机器人恒力跟踪方法，包括以下步骤：

S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹，通过位置-力混合控制算法框架融合阻抗控制算法和轨迹规划算法，对机器人末端不同的方向使用不同的控制策略，实现机器人对未知环境复杂曲面的恒力跟踪；

S2、基于位置-力混合控制策略初次恒力遍历未知环境中的复杂曲面，实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息，将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量；

S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差，通过ε-greedy算法选择下一步的行为，并通过回报函数评估采取行为的回报，优化机器人恒力跟踪时的运动轨迹，使得恒力跟踪的误差能够最小。

优选的，所述S1包括以下步骤：

S101、采集环境中复杂曲面的型值点，通过NURBS轨迹规划算法计算过型值点的NURBS轨迹，并利用速度插补算法对拟合轨迹进行速度规划，拟合出速度可控的机器人运动轨迹X_nurbs；

S102、通过选择矩阵确定机器人的柔顺力控制方向，并对机器人的其他方向进行位置控制，使机器人能够对未知环境进行恒力跟踪，基于位置-力混合控制框架的机器人运动轨迹方程为：

X_robot＝H·X_nurbs+(I-H)·X_c

其中，

是选择矩阵，h_i∈[0，1]，I是单位矩阵，X_robot是发送给机器人的实际运动轨迹，X_nurbs是通过速度可控的NURBS轨迹规划算法拟合的轨迹，X_c是柔顺控制算法对机器人运动轨迹的修正量。

优选的，所述S2包括以下步骤：

S201、机器人基于位置-力混合控制初次遍历未知环境中复杂曲面时，实时记录机器人末端的实际运动轨迹X_m、末端姿态矩阵R_m以及末端接触力F_e；

S202、所述的Q-learning算法为：

newQ_S，A＝(1-α)Q_S，A+α(R_S，A+γ·maxQ′(s′，a′))

其中，newQ_S，A是基于状态和行动的新的Q值；Q_S，A是当前的Q值；R_S，A是基于状态和行动的奖励；maxQ′(s′，a′)是在给定新的状态和行动下未来最大的奖励；(1-α)Q_S，A是旧Q值在newQ_S，A之中所占的比重；(R_S，A+γ·maxQ′(s′，a′))为本次行动自身带来的奖励和未来潜在的奖励；

S203、将所记录的机器人的实际运动轨迹和实际末端接触力作为Q-learning算法的输入量，即每个时刻机器人末端的实际接触力与期望接触力之间的差值Δf作为状态量，将柔顺控制得到的位置修正量作为行为量。

优选的，所述S3包括以下步骤：

S301、所述的ε-greedy搜索策略为：

S302、确定行为之后，需要评估所采取行为的回报函数R：

其中，δ₁，δ₂分别表示力误差和位置误差的权值；f_d，p_d分别表示期望力和期望位置，f和p表示所获得的实际接触力与机器人的实际位置，通过回报函数评估所采取行为的回报，使得误差能够最小。

本发明的有益效果是：

基于力/位混合控制框架实现位置-力混合控制的恒力跟踪，遍历未知环境中的复杂曲面后，通过学习算法优化机器人的运动轨迹，降低环境不确定性和拟合轨迹误差导致的恒力跟踪精度差的问题，使之能适用于位置环境的机器人恒力接触作业任务。

附图说明

图1为本发明的结构示意图；

图2为本发明的Q-learning进行力控算法流程图；

图3为本发明的基于教与学模态下的机器人末端与环境中复杂曲面的实际接触力与期望接触力示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅图1-3所示，本发明提供一种技术方案：一种基于教与学模态的机器人恒力跟踪方法，包括以下步骤：

根据以上所述基于教与学模态的机器人恒力跟踪方法，可以更加准确的确定机器人恒力跟踪的机器人运动轨迹，实现对环境中复杂曲面的恒力跟踪效果。

获取环境中曲面的型值点，一般选取曲面的拐点或曲率变化较大的点，通过NURBS轨迹规划算法计算曲面的表面轮廓，将其作为机器人末端笛卡尔空间的运动约束轨迹，进一步通过T型速度规划算法对拟合的轨迹进行速度规划，确保机器人末端的速度平稳可控。最终确定速度可控的机器人末端拟合轨迹X_nurbs；

机器人末端的Z轴方向通过位置控制的同时，通过末端六维力传感器实时获取机器人与环境的实际接触力f_e，设定机器人末端与环境的接触力f_d，利用导纳控制策略纠正由于末端接触力的变化产生的轨迹误差X_c，实时纠正机器人末端的轨迹，其中导纳控制方程为：

其中，M是质量系数，一般情况设为1，B是阻尼系数，K是刚度系数，d表示期望值，c表示控制量，F_e表示输入的外力。方程稳定条件为

将拟合的机器人轨迹X_nurbs和基于导纳控制实现恒力跟踪的轨迹纠正量X_c融合，作为机器人实际跟踪曲面时的运动轨迹：

X_robot＝H·X_nurbs+(I-H)·X_c

其中，

是选择矩阵，h_i∈[0，1]，h_i＝0表示此维度的轨迹由通过力控制，h_i＝1表示此维度的轨迹通过拟合的轨迹控制，h_i∈(0，1)表示在通过轨迹控制的同时也通过力控制，I是单位矩阵，X_robot是发送给机器人的实际运动轨迹，X_nurbs是通过速度可控的NURBS轨迹规划算法拟合的轨迹，X_c是柔顺控制算法对机器人运动轨迹的修正量。

机器人通过接收的X_robot轨迹遍历环境中的曲面时，实时同步记录机器人末端的运动轨迹点P以及对应时刻机器人末端与曲面之间的接触力F_e。

Q-learning算法的迭代方程为：

newQ_S，A＝(1-α)Q_S，A+α(R_S，A+γ·maxQ′(s′，a′))

其中，newQ_S，A是基于状态和行动的新的Q值；Q_S，A是当前的Q值；R_S，A是基于状态和行动的奖励；maxQ′(s′，a′)是在给定新的状态和行动下未来最大的奖励；(1-α)Q_S，A是旧Q值在newQ_S，A之中所占的比重；(R_S，A+γ·maxQ′(s′，a′))为本次行动自身带来的奖励和未来潜在的奖励；α表示学习率，定义了一个旧的Q值从新的Q值中学习新的Q值占自身的比重，学习率α决定了强化学习收敛到最优值的速度。γ被称为折扣因子，取值范围为0～1，决定时间的远近对回报的影响程度，值为0意味着只考虑短期奖励，值为1意味着更重视长期奖励；

将所记录的机器人末端实际接触力与期望接触力的插值ΔF＝F_e-F_d作为Q-learning算法的状态量，将所记录的机器人末端实际轨迹点P作为行为量；

通过ε-greedy搜索策略来平衡探索和利用之间的关系，以ε的概率进行探索，以1-ε的概率进行利用，其探索分布如下所示其方程为：

确定机器人的行为之后，通过回报函数评估所采取的行动的回报：

其中，δ₁，δ₂分别表示力误差和位置误差的权值，如果力跟踪占主导地位则可以增大δ₁；f_d，p_d分别表示期望力和期望位置，该回报函数R取反是为了最后能选择最大回报的行为，优化机器人恒力跟踪是的运动轨迹，使得恒力跟踪时误差最小；

设定折扣因子γ满足条件以及更新目标的条件，进行Q-leaming学习算法的迭代学习，优化机器人末端恒力跟踪的轨迹，将优化后的轨迹作为机器人恒力跟踪时的运动轨迹X_new。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于教与学模态的机器人恒力跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法，其特征在于，所述S1包括以下步骤：

X_robot＝H·X_nurbs+(I-H)·X_c

其中，

3.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法，其特征在于，所述S2包括以下步骤：

S202、所述的Q-learning算法为：

newQ_S，A＝(1-α)Q_S，A+α(R_S，A+γ·maxQ′(s′，a′))

4.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法，其特征在于，所述S3包括以下步骤：

S301、所述的ε-greedy搜索策略为：

S302、确定行为之后，需要评估所采取行为的回报函数R：