CN117103282B

CN117103282B - 一种基于matd3算法的双臂机器人协同运动控制方法

Info

Publication number: CN117103282B
Application number: CN202311363311.XA
Authority: CN
Inventors: 于丹; 陈炯光
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-02-13
Anticipated expiration: 2043-10-20
Also published as: CN117103282A

Abstract

本发明公开了一种基于MATD3算法的双臂机器人协同运动控制方法，包括：步骤1，针对双臂机器人系统，建立机械臂模型，包括机器人运动学及动力学方程；步骤2，建立MATD3算法网络，设计网络结构及参数更新规则；步骤3，训练面向双臂机器人协同控制的MATD3网络模型，网络包括两个智能体，选择每个智能体的状态空间、动作空间和奖励函数，并给出网络训练流程；步骤4，基于MATD3的双臂机器人协同运动控制，基于已训练的算法模型进行双臂机器人协同运动控制。本发明的方法可以实现双臂机器人的协同运动控制，相比较传统算法，在大幅度降低计算复杂度的同时提高了控制效率和可靠性。

Description

一种基于MATD3算法的双臂机器人协同运动控制方法

技术领域

本发明涉及机器人动力学控制与强化学习领域，具体为一种基于MATD3算法的双臂机器人协同运动控制方法。

背景技术

随着机器人任务种类的多样化，双机械臂协同操作逐渐成为机器人领域的新发展趋势，也面临着众多研究难点和挑战。由于双臂机器人存在多个自由度，如何在多自由度空间中规划运动轨迹，使双臂能够实现高效、平滑地协同操作，是一个复杂且具有挑战性的问题。

目前已有的双臂协同控制方法主要分为基于运动学的控制方法和基于动力学的控制方法。基于运动学的控制方法主要针对双臂机器人运动中的各种约束条件、协同工作中的臂间干涉以及运动路径规划等问题进行深入分析。基于动力学的控制方法需要建立双臂机器人的动力学模型，通过控制机器人的关节力矩来实现协同运动。传统的基于运动学的方法不仅要求机器人能够准确地跟踪轨迹，还需要进行大量繁琐的逆运动学解算工作，其过程复杂且容易引起误差。基于动力学进行运动控制的方法往往对模型的精度要求较高，对模型误差和不确定性较为敏感。

发明内容

针对上述提出的技术问题，本发明提供一种基于MATD3算法的双臂机器人协同运动控制方法，基于MATD3（Multi-Agent Twin Delayed Deep Deterministic PolicyGradient）算法，通过控制机器人关节力矩，实现对双臂机器人的协同运动控制。该算法以“集中训练，分散执行”的思路为基础，充分利用双臂系统之间的状态信息交互，实现更加高效和稳定的双臂协同运动。

一种基于MATD3算法的双臂机器人协同运动控制方法，包括以下步骤：

步骤1，针对双臂机器人系统，建立机械臂模型，包括机器人运动学及动力学方程。

步骤2，设计了一个多智能体MATD3算法：建立MATD3算法网络，设计网络结构及参数更新规则，具体的，对一个智能体分别建立一组策略-评价网络，策略网络根据状态信息选择动作组成动作对，采用CEM算法对动作对进行搜索，选择价值最高的动作作为当前时刻智能体所执行的动作，评价网络根据智能体的状态信息评估动作价值，网络根据以上信息更新网络参数。

步骤3，将步骤2设计的算法用于双臂机器人协同运动控制，结合双臂机器人协同运动控制问题给出网络训练流程，具体的：训练面向双臂机器人协同控制的MATD3网络模型，网络包括两个智能体，选择每个智能体的状态空间、动作空间和奖励函数，并给出网络训练流程。

步骤4，基于MATD3的双臂机器人协同运动控制，基于已训练的模型进行双臂机器人协同运动控制。

有益效果

（1）本发明采用多智能体强化学习算法，每个机械臂分别设计一个控制器，可有效降低每个控制器计算时间，从而实现高效实时的双臂协同运动。

（2）本发明采用基于动力学的力矩控制策略有效地避免了繁琐的逆运动学解算过程，提高了控制效率和可靠性。

（3）本发明使用强化学习算法，机器人能够从与环境的互动中进行自主学习，从而优化关节力矩控制策略，降低模型不确定性的影响，提高控制精度。

附图说明

图1为本发明所提供的MATD3算法流程图；

图2为本发明所提供的MATD3算法与环境交互流程图；

图3为本发明一个实施例的训练时机械臂1的多组累积奖励值聚合图；

图4为本发明一个实施例的训练时机械臂2的多组累积奖励值聚合图；

图5为本发明一个实施例的测试时机械臂末端与目标位置距离的变化曲线；

图6为本发明一个实施例的测试时机械臂各关节角度变化曲线；

图7为本发明一个实施例的测试时机械臂1输出控制力矩曲线；

图8为本发明一个实施例的测试时机械臂2输出控制力矩曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图8所示，本发明公开了一种新的基于MATD3算法的双臂机器人协同运动控制方法，包括如下步骤：

步骤1.1，首先建立双臂六自由度机器人关节坐标，将机器人左、右臂的坐标统一到基坐标系下，根据坐标变换关系建立机械臂1的运动学方程：

；

机械臂2的运动学方程：

。

其中，表示机械臂j从第i-1个连杆变换到第i个连杆所要经过的转移矩阵，表示第j个机械臂的第i个关节，i=1,…,6，j=1,2。

定义机械臂1末端执行器的位置坐标，末端执行器1运动的目标位置在基坐标系/>下的位置坐标/>，其中，/>分别为机械臂1末端执行器的x轴坐标、y轴坐标、z轴坐标，/>分别为机械臂1末端执行器目标位置的x轴坐标、y轴坐标、z轴坐标。同理，定义机械臂2末端执行器的位置坐标/>，末端执行器2运动的目标位置坐标/>，其中，/>分别为机械臂2末端执行器的x轴坐标、y轴坐标、z轴坐标，/>分别为机械臂2末端执行器目标运动位置的x轴坐标、y轴坐标、z轴坐标。

步骤1.2，建立双臂机器人动力学方程如下：

，

其中，分别为机械臂的关节角度、角速度、角加速度，分别代表机械臂的转动惯量矩阵、科氏力矩阵和重力矩阵，/>为机械臂各关节的控制力矩矩阵。

步骤2，MATD3算法网络设计与训练。MATD3算法框架如图1所示，共有M个智能体，对每一个智能体分别建立一组策略-评价（Actor-Critic）网络，对于第n个智能体，每组策略-评价网络包括一个策略网络，网络参数为/>、一个目标策略网络，网络参数为/>、两个评价网络，网络参数分别为/>、两个目标评价网络，网络参数分别为/>，训练时算法的更新步骤如下：

步骤2.1，对于第n个智能体，其策略网络会根据自身采样观察到的状态信息制定策略，根据策略选择Y个动作组成动作对：/>。

步骤2.2，采用CEM（Cross-Entropy Method）算法对动作对进行搜索，通过评价网络评估动作价值，评价网络会根据所有智能体的状态计算动作的价值，即：、/>，/>。CEM算法会选择价值最高的动作作为当前时刻智能体所执行的动作，即。

步骤2.3，每个智能体执行当前动作并与环境交互后，得到下一状态，产生执行动作后的奖励值/>。

步骤2.4，智能体将经验样本存放到经验回放池D中，作为训练网络的数据。

步骤2.5，从经验回放池D中随机抽取N组经验样本，将其作为训练策略网络和评价网络的mini-batch数据，对mini-batch中第n个智能体的第i组样本记为。

步骤2.6，目标策略网络根据中的下一状态/>，结合目标策略网络参数/>产生下一动作/>，分别传入两个目标评价网络中，目标评价网络会根据所有智能体的状态信息评估动作/>的价值，/>、。智能体会选择较小的动作价值作为计算目标动作价值/>的参数，即：

，

其中为折扣因子。

步骤2.7，策略网络结合样本中的产生动作/>，传入两个评价网络中，分别计算相应的动作价值/>、/>，智能体会选择较小的动作价值作为计算评价网络 Loss 函数的参数，即：

。

步骤2.8，分别计算两个评价网络的Loss 函数对于网络参数的梯度：，并根据时序差分法优化更新评价网络的网络参数。

步骤2.8，通过函数J计算策略网络的优劣，即：

，

其中，为表示状态/>分布情况的函数。

步骤2.9：计算策略网络的J函数对于网络参数的梯度：，并根据确定性策略梯度法优化更新策略网络参数。

步骤2.10：分别对目标策略网络和目标评价网络的网络参数进行软更新，其中通常取值为0.001，

。

步骤3，基于MATD3的双臂机器人协同运动控制方法，包括状态空间选择、动作空间设计，奖励函数设计，MATD3算法网络训练。

步骤3.1，选择机械臂1的状态空间：

，

其中：分别为机械臂1的关节角度、关节角速度，/>为机械臂1末端执行器与目标位置1之间的距离。选择机械臂2的状态空间：

，

其中：分别为机械臂2的关节角度、关节角速度，/>为机械臂2末端执行器与目标位置2之间的距离。

设计机械臂1动作空间，其中分别为机械臂1的六个关节的控制力矩，设计机械臂2动作空间，其中/>分别为机械臂2的六个关节的控制力矩。

步骤3.2，建立控制目标，即双臂机器人末端执行机构协同到达空间中目标位置，基于此设计奖励值如下，机械臂1：

，

机械臂2：

，其中为权重系数，/>、/>表示控制输出量A各项的平方和，即机械臂各关节力矩的平方和，该项可以避免机械臂关节力矩过大。

步骤3.3，MATD3算法训练。在训练过程中，强化学习算法会使机械臂随机探索动作空间，为了避免探索时间过长，导致机械臂出现不稳定状态、奖励值无法收敛等情况，定义机械臂与环境的最大交互步数L，当机械臂与环境交互L次后，将初始化当前环境与机械臂状态，重新开始新一轮探索。同时定义训练的最大步数S，机械臂与环境交互S次后，训练结束。网络训练过程中算法与环境的交互流程如图2所示，步骤如下：

步骤3.3.1，初始化算法参数，随机生成神经网络参数，确定L与S的取值，其中L≤S。

步骤3.3.2，初始化仿真训练环境，设定机器人初始位置姿态，以及目标位置。

步骤3.3.3，每个机械臂获取当前状态信息，分别获取机械臂当前关节角度，关节角速度等信息，作为算法的状态空间。

步骤3.3.4，由MATD3算法的策略网络选择当前动作。

步骤3.3.5，由机器人系统执行当前动作，并与环境交互。根据步骤1.2中的机器人动力学模型计算下一时刻的关节角度，角速度值，得到机械臂新的状态。

步骤3.3.6，根据步骤1.1中的机器人运动学模型计算末端执行器的位置坐标，计算与目标位置的距离，，并计算奖励值函数/>的值。

步骤3.3.7，将当前状态信息、新的状态信息、奖励值、动作等信息参数组成状态对，储存到经验回放池中。

步骤3.3.8，智能体从经验池中随机抽取一定数量的样本，使用梯度下降等方法更新自身网络参数。

步骤3.3.9，判断当前步数是否小于L，如果是，则重复步骤3.3.3，继续获取机械臂的状态信息，执行动作；否则进入下一步骤。

步骤3.3.10，判断当前步数是否小于S，如果是，则重复步骤3.3.2，初始化当前环境和机械臂状态，开启新一轮探索；否则结束训练。

步骤4，基于MATD3的双臂机器人协同运动控制。在步骤3完成训练后，算法将会保存训练成功的神经网络模型。在应用中机械臂将会利用这一模型进行运动控制，步骤如下：

步骤4.1，初始化环境，设定机器人初始位置姿态，以及目标位置。

步骤4.2，每个机械臂获取当前状态信息，分别获取机械臂当前关节角度，关节角速度。

步骤4.3，由MATD3算法选择当前动作。

步骤4.4，由机器人系统执行当前动作，并与环境交互。根据步骤1.2中的机械臂动力学模型计算下一时刻的关节角度、角速度，得到机械臂新的状态。

步骤4.5，根据步骤1.1中的机器人运动学模型计算末端执行器的位置坐标，计算与目标位置的距离。

步骤4.6，判断机械臂末端执行器是否到达目标位置，如果是，结束控制，否则重复步骤4.2。

本发明实施例具体如下：使用Spinning Up框架设计算法，采用gym环境设计仿真场景，基于MuJoCo引擎建立双臂机器人仿真模型，程序使用Python3.6语言编写。选择UR5机器人作搭建双臂机器人仿真模型，两个机械臂的位置和初始构型是对称的，为方便控制，分别选取UR5机器人的前三个关节作为控制变量，固定UR5机器人的后三个关节角度为0。设置机器人1的初始关节角度，机器人2的初始关节角度，设置器人1目标位置坐标/>，机器人2目标位置坐标/>，由MuJoCo计算机械臂1与机械臂2末端执行器的位置坐标/>、/>，位置坐标的单位均为m。选择机械臂1的状态空间：/>，其中：分别为机械臂1的前三个关节角度、前三个关节角速度，/>为机械臂1末端执行器与目标位置1之间的距离。选择机械臂2的状态空间，其中：/>分别为机械臂2的前三个关节角度、前三个关节角速度，/>为机械臂2末端执行器与目标位置2之间的距离。初始化算法的各项参数如下：各个网络参数由随机数生成函数生成，折扣因子/>，机械臂与环境的最大交互步数/>，训练的最大步数/>。

根据步骤3对算法进行训练，设计训练目标为机械臂末端执行器快速到达指定位置，设计奖励值如下：

机械臂1：，

机械臂2：，

其中，

。

训练结果如图3与图4所示，可以看到累积奖励值成功收敛到了一个较小的值，说明训练成功。

根据步骤4对训练成功模型进行测试，不改变其他仿真环境，测试结果如下：

如图5所示，机械臂1与机械臂2末端执行器与目标位置之间的距离非常接近，基本到达目标位置，实现了预定控制目标。

如图6所示，机械臂运动平滑且简洁，且没有因路径代价的优化导致角度的剧烈变化。

如图7-图8所示，算法输出的控制力矩虽有波动，但变化范围较小，与机械臂控制需求相符。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于MATD3算法的双臂机器人协同运动控制方法，其特征在于，包括以下步骤：

步骤1，针对双臂机器人系统，建立机械臂模型，包括机器人运动学及动力学方程；

步骤2，建立MATD3算法网络，并设计网络结构及参数更新规则，具体的，对一个智能体分别建立一组策略-评价网络，包括一个当前策略网络、一个目标策略网络、两个当前评价网络、两个目标评价网络，设计网络参数包括当前策略网络参数目标策略网络参数两个当前评价网络参数/>两个目标评价网络参数/>具体的，所述MATD3算法网络为：

步骤2.1.1，对于第n个智能体，其当前策略网络会根据自身采样观察到的状态信息sⁿ，根据策略选择Y个动作组成动作对：/>

步骤2.1.2，智能体采用CEM算法对所述动作对进行搜索，通过当前评价网络根据所有智能体的状态计算动作的价值，并且输出价值最高的动作，表示为：其中，s¹,...sⁿ...,s^M为状态信息，/>为动作对，/>为动作的价值，j为动作的个数；

步骤2.1.3，每个智能体执行当前动作并与环境交互后，得到下一状态产生执行动作后的奖励值rⁿ；智能体将经验样本/>存放到经验回放池D中，作为训练网络的数据；

所述MATD3算法网络参数更新规则为：

步骤2.2.1，智能体从经验回放池D中选择若干样本进行训练，将其中第n个智能体的第i组样本记为：

步骤2.2.2，目标策略网络根据下一状态产生下一动作/>分别传入两个目标评价网络中，目标评价网络根据所有智能体的状态计算动作的价值智能体选择其中较小的动作价值计算目标动作价值/>步骤2.2.3，基于/>计算评价网络的Loss函数，更新当前评价网络的网络参数包括：

步骤2.2.3.1，基于计算当前评价网络的Loss函数的梯度/>其中参数L表示为/>步骤2.2.3.2，基于动作的价值构造函数J来计算当前策略网络的优劣，函数J表示为：式中/>表示状态/>分布情况的函数；

步骤2.2.3.3，计算当前策略网络的J函数对于网络参数的梯度根据确定性策略梯度法优化更新策略网络参数；

步骤2.2.4，使用更新后的评价网络对目标评价网络的网络参数进行软更新：τ为固定值；

步骤3，训练面向双臂机器人协同控制的MATD3网络模型，网络包括两个智能体，选择每个智能体的状态空间、动作空间和奖励函数，并给出网络训练流程，具体的，选择每个智能体的状态空间、动作空间和奖励函数具体为：选择机械臂1的状态空间s¹，选择机械臂2的状态空间s²，设计机械臂1动作空间A¹，设计机械臂2动作空间A²，设计奖励值：

其中为权重系数，norm(A¹)、norm(A²)表示控制输出量A各项的平方和，即机械臂各关节力矩的平方和；

MATD3算法网络训练具体步骤为：

步骤3.3.1，初始化算法参数，随机生成神经网络参数，确定机械臂与环境的最大交互步数L与机械臂与环境交互次数S的取值，其中L≤S；

步骤3.3.2，初始化仿真训练环境，设定机器人初始位置姿态，以及目标位置；步骤3.3.3，每个机械臂获取当前状态信息，分别获取机械臂当前关节角度，关节角速度信息，作为算法的状态空间；

步骤3.3.4，由MATD3算法的策略网络选择当前动作；

步骤3.3.5，由机器人系统执行当前动作，并与环境交互；根据机器人动力学模型计算下一时刻的关节角度，角速度值，得到机械臂新的状态；

步骤3.3.6，根据机器人运动学模型计算末端执行器的位置坐标，计算与目标位置的距离并计算奖励值函数r¹、r²的值；步骤3.3.7，将当前状态信息、新的状态信息、奖励值、动作这些信息参数组成状态对，储存到经验回放池中；

步骤3.3.8，智能体从经验池中随机抽取一定数量的样本，使用梯度下降方法更新自身网络参数；

步骤3.3.9，判断当前步数是否小于L，如果是，则重复步骤3.3.3，继续获取机械臂的状态信息，执行动作；否则进入下一步骤；

步骤3.3.10，判断当前步数是否小于S，如果是，则重复步骤3.3.2，初始化当前环境和机械臂状态，开启新一轮探索；否则结束训练；

步骤4，基于MATD3的双臂机器人协同运动控制，基于已训练的模型进行双臂机器人协同运动控制，具体的，步骤4.1，初始化环境，设定机器人初始位置姿态，以及目标位置；

步骤4.2，每个机械臂获取当前状态信息，分别获取机械臂当前关节角度，关节角速度；

步骤4.3，由MATD3算法选择当前动作；

步骤4.4，由机器人系统执行当前动作，并与环境交互，根据机械臂动力学模型计算下一时刻的关节角度、角速度，得到机械臂新的状态；

步骤4.5，根据机器人运动学模型计算末端执行器的位置坐标，计算与目标位置的距离；

2.根据权利要求1所述的基于MATD3算法的双臂机器人协同运动控制方法，其特征在于，所述步骤1中的双臂机器人系统模型，包括机械臂1的运动学模型：机械臂2的运动学模型：其中，/>表示机械臂j从第i-1个连杆变换到第i个连杆所要经过的转移矩阵，/>表示第j个机械臂的第i个关节，i＝1,...,6，j＝1,2；

机器人系统的动力学模型：其中，q、/>分别为机械臂的关节角度、角速度、角加速度，M(q)、/>g(q)分别代表机械臂的转动惯量矩阵、科氏力矩阵和重力矩阵，τ为机械臂各关节的控制力矩矩阵。