CN115416024A

CN115416024A - 一种力矩控制的机械臂自主轨迹规划方法和系统

Info

Publication number: CN115416024A
Application number: CN202211057297.6A
Authority: CN
Inventors: 郭美杉; 梁斌焱; 王尧; 陈志鸿; 王燕波
Original assignee: Beijing Research Institute of Precise Mechatronic Controls
Current assignee: Beijing Research Institute of Precise Mechatronic Controls
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-02

Abstract

本发明公开了一种力矩控制的机械臂自主轨迹规划方法和系统，该方法包括：获取输入数据；其中，输入数据包括：目标点运动区域图像、机械臂在笛卡尔空间的末端位姿、以及机械臂在关节空间的角位置、速度、加速度和力矩；将输入数据输入至路径规划网络模型，通过路径规划网络模型对输入数据进行解算，输出关节力矩控制量；根据路径规划网络模型输出的关节力矩控制量，控制机械臂连续平滑快速地从当前点位姿运动至目标点位姿。本发明可自主规划运动轨迹，使机械臂末端到达目标点用时更短。

Description

一种力矩控制的机械臂自主轨迹规划方法和系统

技术领域

本发明属于机器人技术领域，尤其涉及一种力矩控制的机械臂自主轨迹规划方法和系统。

背景技术

目前，串联式机械臂的轨迹规划方法主要有运动学法、人工势场法、快速扩展随机树法、神经网络模型法等：1)运动学法依赖于机械臂D-H参数，在关节空间或笛卡尔空间进行多项式插值，构建平滑轨迹曲线。当机械臂多自由度冗余时，其参数繁多。且随着多项式阶次增加，平滑度提高，但计算更加复杂。2)人工势场法进行估计规划，具有良好的实时性，但在机械臂自由度较高时无法保证路径可靠性。3)快速扩展随机树法理论简单易行，但参数设置复杂，算法效率较低。4)神经网络模型法通过强化学习对机械臂进行训练，可实现关节空间到笛卡尔空间端到端的映射网络，减轻了对公式推导和复杂计算的依赖，为机械臂轨迹规划提供了新思路。

然而，上述方法均没有考虑动力学性能、关节电机的力矩-速度曲线。实际中，机械臂能达到的最大加速度与动力学性能、电机输出力矩等因素有关。且电机特性并非由最大力矩或最大加速度规定，而是由力矩-速度关系曲线即机械特性决定的。传统的规划方法难以将机械特性参数引入运动学公式推导中，如何在轨迹规划中充分利用加速度性能成为一大挑战。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种力矩控制的机械臂自主轨迹规划方法和系统，可自主规划运动轨迹，使机械臂末端到达目标点用时更短。

为了解决上述技术问题，本发明公开了一种力矩控制的机械臂自主轨迹规划方法，包括：

获取输入数据；其中，输入数据包括：目标点运动区域图像、机械臂在笛卡尔空间的末端位姿、以及机械臂在关节空间的角位置、速度、加速度和力矩；

将输入数据输入至路径规划网络模型，通过路径规划网络模型对输入数据进行解算，输出关节力矩控制量；

根据路径规划网络模型输出的关节力矩控制量，控制机械臂连续平滑快速地从当前点位姿运动至目标点位姿。

在上述力矩控制的机械臂自主轨迹规划方法中，通过自主学习训练方式训练得到路径规划网络模型。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，使用深度强化学习算法训练目标网络，通过最大化折扣后的未来期望累计奖励逼近至最优策略；采用如下非线性奖励函数评估机械臂当前动作的奖励r：

r＝r_pos+r_ori+q₃r_step

其中，r_pos表示位置奖励，r_ori表示姿态奖励，r_step表示时间惩罚；Δx、Δy、Δz表示目标位置与当前末端位置在机械臂基座坐标系下的差值；q₁表示调整位置奖励斜率的系数；Δα、Δβ、Δγ表示目标姿态与当前末端姿态在机械臂基座坐标系下的差值，q₂表示调整姿态奖励斜率的系数；q₃表示调整时间惩罚的权重。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，向“最大化折扣后的未来期望累计奖励”的方向更新目标网络参数，以逼近用时最短的最优路径规划策略；其中，折扣后的未来期望累计奖励指机械臂当前步数i下，状态S_i-动作A_i价值Q(S,A)。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，收集机械臂样本到经验池，采用优先经验回放进行离线策略更新；同时对多样本进行学习和参数更新，提高策略更新效率，并提高样本独立性，解决机械臂不同回合的动态状态分布问题。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，通过逼近最优策略，不仅能够学习机械臂关节角与末端位姿的运动学关系，同时学习了关节驱动电机的力矩-速度关系以及机械臂的动力学性能，以更少的步数为目标，输出关节力矩，从而生成同时受速度和力矩约束的速度优化轨迹。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，对路径规划网络施加各项约束，以保证机械臂自身安全与环境安全；其中，所施加的约束包括：单步力矩约束、电机最大力矩约束、机械臂工作空间约束、机械臂自身碰撞与奇异约束和回合最大步数约束。

在上述力矩控制的机械臂自主轨迹规划方法中，路径规划网络模型在进行自主学习训练时，对输入的目标点运动区域图像进行特征提取，将提取得到的特征通过卷积层和全局平均池化层后，送入激活函数来获取目标位姿信息。

在上述力矩控制的机械臂自主轨迹规划方法中，通过手眼相机采集得到目标点运动区域图像；通过所属关节力传感器获取机械臂在关节空间的角位置、速度、加速度和力矩。

相应的，本发明还公开了一种力矩控制的机械臂自主轨迹规划系统，包括：

数据获取模块，用于获取输入数据；其中，输入数据包括：目标点运动区域图像、机械臂在笛卡尔空间的末端位姿、以及机械臂在关节空间的角位置、速度、加速度和力矩；

解算模块，将输入数据输入至路径规划网络模型，通过路径规划网络模型对输入数据进行解算，输出关节力矩控制量；

控制模块，用于根据路径规划网络模型输出的关节力矩控制量，控制机械臂连续平滑快速地从当前点位姿运动至目标点位姿。

本发明具有以下优点：

(1)本发明公开了一种力矩控制的机械臂自主轨迹规划方法，不同于传统的基于运动学轨迹规划方法，本发明考虑了机械臂动力学性能，学习关节驱动电机的力矩-速度关系，不仅能够规划机械臂末端到达目标位置的连续平滑运动路径，同时考虑路径各点的速度、加速度信息，从而生成受力矩约束的速度优化轨迹。

(2)本发明公开了一种力矩控制的机械臂自主轨迹规划方法，对于多自由度冗余的机械臂，采用样条插值和逆运动学等传统方案解算得到的路径曲线往往平滑性较差且计算复杂，本发明将具有高维度连续状态空间、连续动作控制地强化学习算法与机械臂轨迹规划任务相结合，训练的端到端神经网络极大提高了运算效率。

(3)本发明公开了一种力矩控制的机械臂自主轨迹规划方法，深度强化学习不依赖机械臂物理模型，避免了模型不确定性带来的问题；不需要进行监督学习和増广示教；针对动力学复杂的目标函数，所设计的非线性奖励函数使训练模型具有更快的收敛速度和稳定性，避免出现局部最优或震荡不收敛的情况。

附图说明

图1是本发明实施例中一种力矩控制的机械臂自主轨迹规划方法的实现原理图；

图2本发明实施例中一种力矩控制的机械臂自主轨迹规划方法的全维度仿真试验平台示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明公开的实施方式作进一步详细描述。

常用的轨迹规划方法通常为位置控制，不能充分利用机械臂的加速度性能，从而引出一个考虑动力学的轨迹规划问题。如何在满足速度-力矩约束的前提下，学习机械臂动力学性能以及各个关节驱动电机的速度-力矩约束关系，自主规划运动轨迹，使机械臂末端到达目标点用时更短是本发明技术人员亟需解决的问题之一。

在本实施例中，该力矩控制的机械臂自主轨迹规划方法，包括：

步骤1，获取输入数据。

在本实施例中，输入数据为高维度连续状态空间，主要包括：目标点运动区域图像、机械臂在笛卡尔空间的末端位姿、以及机械臂在关节空间的角位置、速度、加速度和力矩。如图1，可通过手眼相机采集得到目标点运动区域图像，通过所属关节力传感器获取机械臂在关节空间的角位置、速度、加速度和力矩。

步骤2，将输入数据输入至路径规划网络模型，通过路径规划网络模型对输入数据进行解算，输出关节力矩控制量。

在本实施例中，该路径规划网络模型可通过自主学习训练方式训练得到。

优选的，路径规划网络模型在进行自主学习训练时，使用深度强化学习算法训练目标网络，通过最大化折扣后的未来期望累计奖励逼近至最优策略。具体可采用如下非线性奖励函数评估机械臂当前动作的奖励r：

r＝r_pos+r_ori+q₃r_step

其中，奖励r由三部分构成：位置奖励r_pos、姿态奖励r_ori和时间惩罚r_step。对于位置奖励r_pos，Δx、Δy、Δz表示目标位置与当前末端位置在机械臂基座坐标系下的差值，q₁表示调整位置奖励斜率的系数，机械臂末端距离目标越近，则奖励值越大。对于姿态奖励r_ori，Δα、Δβ、Δγ表示目标姿态与当前末端姿态在机械臂基座坐标系下的差值，q₂表示调整姿态奖励斜率的系数，机械臂末端姿态目标姿态越接近，则奖励值越大。对于时间惩罚r_step，对机械臂当前回合内的步数做负奖励，q₃表示调整时间惩罚的权重，步数越多，机械臂到达目标点耗时越长，分数越低，从而使机械臂学习用时更短的规划方法。

优选的，路径规划网络模型在进行自主学习训练时，向“最大化折扣后的未来期望累计奖励”的方向更新目标网络参数，以逼近用时最短的最优路径规划策略。其中，折扣后的未来期望累计奖励指机械臂当前步数i下，状态S_i-动作A_i价值Q(S,A)。

优选的，路径规划网络模型在进行自主学习训练时，收集机械臂样本到经验池，采用优先经验回放进行离线策略更新；同时对多样本进行学习和参数更新，提高策略更新效率，并提高样本独立性，解决机械臂不同回合的动态状态分布问题。

优选的，路径规划网络模型在进行自主学习训练时，输入信息不仅包含目标位姿与末端位姿的关系，同时包含了速度、加速度、力矩等动力学相关信息。通过逼近最优策略，不仅能够学习机械臂关节角与末端位姿的运动学关系，同时学习了关节驱动电机的力矩-速度关系以及机械臂的动力学性能，以更少的步数为目标，输出关节力矩，从而生成同时受速度和力矩约束的速度优化轨迹。

优选的，路径规划网络模型在进行自主学习训练时，对路径规划网络施加各项约束，以保证机械臂自身安全与环境安全。其中，所施加的约束包括：单步力矩约束、电机最大力矩约束、机械臂工作空间约束、机械臂自身碰撞与奇异约束和回合最大步数约束。

优选的，路径规划网络模型在进行自主学习训练时，对输入的目标点运动区域图像进行特征提取，将提取得到的特征通过卷积层和全局平均池化层后，送入激活函数来获取目标位姿信息。其中，目标点运动区域图像一方面作为路径规划网络模型输入状态选择动作，一方面提取的目标位姿用于对当前状态-动作的奖励值r_pos进行评估。

优选的，路径规划网络模型输出的数据为高维度连续动作控制，主要包括关节力矩控制量。

步骤3，根据机械臂各个关节电机的输出力矩，控制机械臂沿路径规划网络从当前点位姿运动至目标点位姿。

综上所述，本发明公开了一种力矩控制的机械臂自主轨迹规划方法，解决运动学轨迹规划方法不能充分利用机械臂的加速度性能的问题。即，如何在满足速度-力矩约束的前提下，学习机械臂动力学性能以及各个关节驱动电机的速度-力矩约束关系，自主规划运动轨迹，使机械臂末端到达目标点用时更短。该力矩控制的机械臂自主轨迹规划方法通过深度强化学习算法训练了一种具有最优策略的路径规划网络，通过手眼相机获取包含目标点位姿信息的运动区域图像，作为路径规划网络的输入状态，路径规划网络根据自主学习的最优策略输出机械臂各个关节力矩，指导机械臂从当前点位姿到达目标点位姿。所述方法学习了机械臂动力学以及速度-力矩约束关系，充分利用加速度性能，使运动耗时更短。

在本实施例中，如图2所示，搭建了机械臂自主轨迹规划任务的全维度仿真试验平台。依靠CoppeliaSim物理引擎对机械臂和环境的动力学、运动学进行建模与仿真，可获取手眼相机等传感器的状态信息，可接收力矩控制信号控制机械臂运动；依靠Pytorch对轨迹规划网络的策略进行训练、更新和测试，仿真环境与python之间通过tcp/ip协议和RemoteAPI接口进行通信，仿真环境将当前的状态传输至训练网络，训练网络根据策略选择的动作作为机械臂的运动指令，控制机械臂运动并对环境产生作用，从而实现闭环。

仿真过程中，以机械臂运动到目标点或机械臂运动步数达到最大步数为一个回合。每个回合开始后，在机械臂运动空间范围内随机设置目标点位姿。仿真环境将当前时刻的状态S₀(手眼相机图像，机械臂末端位姿，关节角位置、角速度、角加速度、力矩)通过TCP/IP通信方式传输至训练中的轨迹规划网络。网络的策略根据当前状态选择Q值最大的动作A₀，即各个关节力矩。通过TCP/IP通信方式将关节力矩传输至仿真环境，控制机械臂运动。机械臂运动后更新状态信息S₁，反馈至轨迹规划网络，并生成一个样本[S₀,A₀,S₁,R₁]存入经验池。手眼相机拍摄目标点运动区域图像。路径规划网络对图像特征进行提取，通过卷积层和全局平均池化层后，送入激活函数来获取目标位姿信息。

在本实施例中，神经网络总共执行1500回合，每一回合的最大步长为200步，在单CPU下的网络收敛时间为11h，训练结果可达到准确率96％，位置精度小于3mm，姿态精度小于2°。最终能够实现对目标点的位置、姿态六维度的连续平滑的路径规划。

在上述实施例的基础上，本发明还公开了一种力矩控制的机械臂自主轨迹规划系统，包括：数据获取模块，用于获取输入数据；其中，输入数据包括：目标点运动区域图像、机械臂在笛卡尔空间的末端位姿、以及机械臂在关节空间的角位置、速度、加速度和力矩；解算模块，将输入数据输入至路径规划网络模型，通过路径规划网络模型对输入数据进行解算，输出关节力矩控制量；控制模块，用于根据路径规划网络模型输出的关节力矩控制量，控制机械臂连续平滑快速地从当前点位姿运动至目标点位姿。

对于系统实施例而言，由于其与方法实施例相对应，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.一种力矩控制的机械臂自主轨迹规划方法，其特征在于，包括：

2.根据权利要求1所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，通过自主学习训练方式训练得到路径规划网络模型。

3.根据权利要求2所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，使用深度强化学习算法训练目标网络，通过最大化折扣后的未来期望累计奖励逼近至最优策略；采用如下非线性奖励函数评估机械臂当前动作的奖励r：

r＝r_pos+r_ori+q₃r_step

4.根据权利要求3所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，向“最大化折扣后的未来期望累计奖励”的方向更新目标网络参数，以逼近用时最短的最优路径规划策略；其中，折扣后的未来期望累计奖励指机械臂当前步数i下，状态S_i-动作A_i价值Q(S,A)。

5.根据权利要求2所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，收集机械臂样本到经验池，采用优先经验回放进行离线策略更新；同时对多样本进行学习和参数更新，提高策略更新效率，并提高样本独立性，解决机械臂不同回合的动态状态分布问题。

6.根据权利要求3所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，通过逼近最优策略，不仅能够学习机械臂关节角与末端位姿的运动学关系，同时学习了关节驱动电机的力矩-速度关系以及机械臂的动力学性能，以更少的步数为目标，输出关节力矩，从而生成同时受速度和力矩约束的速度优化轨迹。

7.根据权利要求6所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，对路径规划网络施加各项约束，以保证机械臂自身安全与环境安全；其中，所施加的约束包括：单步力矩约束、电机最大力矩约束、机械臂工作空间约束、机械臂自身碰撞与奇异约束和回合最大步数约束。

8.根据权利要求2所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，路径规划网络模型在进行自主学习训练时，对输入的目标点运动区域图像进行特征提取，将提取得到的特征通过卷积层和全局平均池化层后，送入激活函数来获取目标位姿信息。

9.根据权利要求1所述的力矩控制的机械臂自主轨迹规划方法，其特征在于，通过手眼相机采集得到目标点运动区域图像；通过所属关节力传感器获取机械臂在关节空间的角位置、速度、加速度和力矩。

10.一种力矩控制的机械臂自主轨迹规划系统，其特征在于，包括：