CN117283565A

CN117283565A - 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法

Info

Publication number: CN117283565A
Application number: CN202311477918.0A
Authority: CN
Inventors: 高赫佳; 张芷铭; 胡钜奇; 何传峰; 孙长银
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-26
Anticipated expiration: 2043-11-03
Also published as: CN117283565B

Abstract

本发明属于自动控制技术领域，具体涉及一种基于全状态反馈的Actor‑Critic网络控制方法，通过ROS平台对柔性关节机械臂进行仿真验证，选取拥有七自由度柔性关节机械臂的Baxter机器人模型作为柔性关节机械臂的动力学模型，并设定机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数，预先构建Actor和Critic神经网络，在设定仿真循环的时间周期内，依据期望轨迹，通过仿真环境输出末端执行关节的仿真结果，将仿真结果输入Critic神经网络中，将输出结果输入Actor神经网络中进行训练，并实时输出基于Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹，以此对机械臂进行有效控制与消除不确定因素，同时提高系统的精度和增强系统的鲁棒性，使其更易于控制更加安全。

Description

一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法

技术领域

本发明属于自动控制技术领域，具体涉及一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法。

背景技术

近年来，柔性关节机械臂的控制技术得到了突飞猛进的发展，且应用极为广泛，柔性机械臂的控制考虑机械臂关节柔性与弹性变形之间的耦合，因此它的运动方程是高度非线性的。同时，柔性机械臂是一个由柔性关节组成的集中式参数系统和由柔性杆组成的分布式参数系统组成的混合系统，其动态特性采用偏微分方程(PDE)来描述，这也增加了控制器设计的难度。

由于运动过程中关节和连杆的柔性效应增加，导致结构变形，降低了执行任务的精度。因此，必须考虑机器人机械臂的结构柔性特性。连杆为柔性时，早期研究学者通常采用假设模态法、有限元法、集总质量法、传递矩阵法等方法来描述柔性机械臂的柔性变形，然后根据需要进行截断。又因为柔性变形只考虑弯曲变形，而忽略轴向变形和剪切变形，因此，从动力角度来看，每个柔性构件都可以看作是一根欧拉伯努利梁，即考虑到机械手连杆的长度总是远远大于其横截面尺寸；与此同时，与振动控制有关的问题便随之产生。

目前，越来越多的研究者采用自适应方法来控制柔性关节机械臂，包括基于径向基函数神经网络的机械臂自适应滑模鲁棒控制，基于自适应模糊滑模控制的机器人轨迹跟踪研究基于模糊干扰观测器的机械手自适应反步滑模控制策略等等。但上述方法在更加复杂的环境下还是难以适应，产生较大的稳态误差，另外，柔性关节机械臂的位置控制精度一直是研究人员关注的问题。研究人员在控制器的设计上做了大量的努力，但控制精度和灵活性都没有达到预期的要求，因此如何设计一种高效可行的控制方法是本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的就在于提供一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，以解决背景技术中提出的问题。

本发明通过以下技术方案来实现上述目的：

一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，步骤包括：

S1、搭建机器人仿真环境，选取Baxter模型作为柔性关节机械臂的动力学模型，并设定所述机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数；

S2、预先构建Actor和Critic神经网络，在设定仿真循环的时间周期内，依据所述期望轨迹，通过仿真环境输出末端执行关节的仿真结果，将所述仿真结果输入所述Critic神经网络中，将输出结果输入所述Actor神经网络中进行训练，并实时输出基于所述Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹；

S3、在所述仿真环境中，输出基于所述时间周期内期望轨迹和实际轨迹的轨迹误差，根据所述轨迹误差来验证所述机械臂控制方法。

作为本发明的进一步优化方案，步骤S1具体包括：

S1.1、基于ROS系统创建工作空间；

S1.2、在所述工作空间中安装与所述Baxter模型相关依赖；

S1.3、完成Baxter模型编译后执行IP连接，并创建仿真环境；

S1.4、基于所述仿真环境下启动Baxter模型机器人仿真测试；

S1.5、重复执行上述步骤直至仿真测试运行正常，启动仿真环境并运行Baxter模型机器人的设定仿真指令；

S1.6、生成Baxter模型机器人的执行控制例程。

作为本发明的进一步优化方案，步骤S2中，预先构建的Actor和Critic神经网络中包括自定义训练方法，其中包括设置Za函数，Za函数将设定构型机械臂所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量。

作为本发明的进一步优化方案，所述Actor神经网络中还包括：Sa函数、权重W_a、学习率以及通过优化器输出的权重W_a的矩阵Q；其中，Sa函数用于将Za函数得到的列向量转化为一维数组并进行正弦运算。

作为本发明的进一步优化方案，所述Critic神经网络中还包括：奖励函数r、学习率以及通过优化器输出奖励函数r的奖励值；其中，将所有关节的跟踪误差和误差导数构成误差矩阵的转置、与新设定的权重矩阵Q、与误差矩阵做矩阵运算得到的负值作为所述奖励值。

作为本发明的进一步优化方案，步骤S2中，将所述仿真结果输入所述Critic神经网络中，将输出结果输入所述Actor神经网络中进行训练基于如下公式实施：

用V表示经过Critic神经网络训练过的Za函数与奖励函数，用T表示Critic神经网络的输出，最后得到的权重自适应率为：

再将权重输入至所述Actor神经网络进行训练。

作为本发明的进一步优化方案，步骤S2中，当所述机械臂末端执行关节具体为两个关节时，基于所述Actor神经网络控制下的Baxter模型机械臂两个关节的控制力矩公式分别为：

其中，L₁和L₂为所述约束力矩增益参数，Z₁和Z₂为跟踪误差，S₁和S₂为误差的导数，α₁和α₂为不确定项，为Actor神经网络的输出。

本发明的有益效果在于：

(1)本发明针对柔性关节机械臂系统，综合考虑系统不确定性、柔性结构的弯曲变形和残余振动等特点，提出一种基于全状态反馈的Actor-Critic网络控制方法，来抑制和消除柔性结构在运动过程中的弯曲变形、残余振动和不确定性，使柔性关节机械臂系统能够精确地跟踪期望轨迹，同时提高系统的精度和增强系统的鲁棒性，提高了机械臂的安全性。

(2)本发明运用ROS系统中的Baxter模型进行仿真，其仿真度高，建模难度小，克服了传统建模方法计算量大，推导过程繁琐、可扩展性差的问题，从而使仿真实验更加简单与易操作方便进行模型分析及控制策略验证。

(3)本发明使用离散化方法将PDE离散为常微分方程(ODE)系统来降低控制器设计的难度。当系统存在不确定性和复杂性时，ODE具有更明显的优势。

附图说明

图1是本发明的仿真环境搭建流程图；

图2是本发明中算法执行流程图；

图3是本发明中控制方法实施的框图；

图4-11是本发明具体实施方式中案例部分基于PI与PD控制机械臂的仿真结果图；

图12-15是本发明具体实施方式中案例部分基于模型控制机械臂的仿真结果图；

图16-19是本发明具体实施方式中案例部分基于Actor-Critic网络全状态反馈控制机械臂的仿真结果图。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

实施例1

如图1-3所示，本实施方式提供了一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，步骤包括：

S1、搭建机器人仿真环境，选取Baxter模型作为柔性关节机械臂的动力学模型，并设定机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数；

S2、预先构建Actor和Critic神经网络，在设定仿真循环的时间周期内，依据期望轨迹，通过仿真环境输出末端执行关节的仿真结果，将仿真结果输入Critic神经网络中，将输出结果输入Actor神经网络中进行训练，并实时输出基于Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹；

S3、在仿真环境中，输出基于时间周期内期望轨迹和实际轨迹的轨迹误差，根据轨迹误差来验证机械臂控制方法。

本实施例中，控制方法的实施基于Ubuntu20.04系统与ROS noetic版本下，运用官方的仿真模型进行控制算法实验。使用gazebo对Baxter机器人进行仿真，通过配置软件相关参数，载入机器人模型，运行控制节点，可以在gazebo中观察Baxter机器人的动作情况，同时可通过指令查看相关机器人运行相关信息，步骤S1仿真环境搭建具体包括：

S1.1、基于ROS系统创建工作空间；

S1.2、在工作空间中安装与Baxter模型相关依赖；

S1.3、完成Baxter模型编译后执行IP连接，并创建仿真环境；

S1.4、基于仿真环境下启动Baxter模型机器人仿真测试；

S1.6、生成Baxter模型机器人的执行控制例程。

本实施例步骤S2中构建Actor和Critic神经网络前还包括两步：

第一步：导入所需要的模块与函数。

首先导入rospy使ROS系统中可以使用python，其次导入baxter_interface的limb库来使用baxter机器人的手臂，再导入PyTorch库，用于神经网络的构建和训练，除此之外导入必要的数学运算函数、绘图函数与NumPy库，用于处理数值计算。之后便可以开始进行仿真操作。

第二步：初始化机械臂与设定基本参数。

首先需要初始化ROS节点，选用两个关节与所对应的两个机械臂包括大臂和小臂，并创建仿真模型的机械臂实例(以下均以右臂为例)，因为机械臂的关节控制需要力来实现，因此设置关节位置速度为0，以启用力矩控制模式，再使其以正弦波函数的方式进行摆动，并以每0.001秒一次记录此机械臂的运动情况，最终记录10秒。接着设置大臂与小臂的约束力矩阵增益的参数L₁，L₂、转动惯量Jm₁，Jm₂和径向基函数(RBF)神经网络的参数，其中RBF神经网络通过奖惩来快速逼近控制算法中的不确定项，其参数设置包括宽度参数α₁，α₂与中心参数β₁，β₂，

本实施例步骤S2中，预先创建的Actor神经网络具体包括：首先是定义结构体，包含输入层、两个隐藏层、输出层，层与层之间用激活函数relu()来实现计算。其次定义训练方法，设置Za()函数、Sa()函数、权重与学习率，其中Za()函数是将所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量，Sa()函数是将Za()函数得到的列向量转化为一维数组并进行正弦运算。之后使用优化器(optimizer)来更新模型参数与权重，用损失函数(loss_function)来展示损失率，以方便做出进一步优化。最后得到权重/>的矩阵Q。

预先创建的Critic神经网络具体包括：首先也是定义结构体，包含输入层、两个隐藏层、输出层，层与层之间用激活函数relu()来实现计算。其次定义训练方法，设置Za()函数、奖励函数r与学习率，其中Za()函数作用同上，奖励函数r为所有关节的跟踪误差、误差导数构成的矩阵的转置与新设定的权重矩阵Q再与误差矩阵做矩阵运算得到的负值。之后使用optimizer来更新模型参数与权重，用loss_function来展示损失率，以方便做出进一步优化。最后得到奖励函数的奖励值。

作为优选的，步骤S2中，将仿真结果输入Critic神经网络中，将输出结果输入Actor神经网络中进行训练基于如下公式实施：

再将权重输入至Actor神经网络进行训练。

作为优选的，步骤S2中，当机械臂末端执行关节具体为两个关节时，首先以0.001秒为单位进行循环，共进行10秒，即10000步长进行仿真，然后在循环中设置期望轨迹的关节期望的角度、期望速度、期望加速度，并注意第二个关节的所有输入均为第一关节输入的二倍。其次，用导入的baxter_interface的limb库来使用baxter机器人的手臂获取实际角度、实际速度。于是我们便得到跟踪误差z₁，z₂与误差的导数s₁，s₂，将其用Za()函数与Sa()函数进行矩阵转化，再带入Actor神经网络进行训练得到权值用/>表示Actor神经网络的输出。接着计算两个关节的RBF函数值，用来逼近不确定项α₁，α₂。最终我们可以得到机械臂的控制力矩公式分别为：

其中，L₁和L₂为约束力矩增益参数，Z₁和Z₂为跟踪误差，S₁和S₂为误差的导数，α₁和α₂为不确定项，为Actor神经网络的输出。

将得到的两个关节的力矩输入到Baxter的仿真机械臂中，便可以让其运行起来，同时让运行的数据存储到例表，以便后续作图。运行一次后，计算成本函数和奖励函数，训练Critic网络，并更新Actor-Critic网络的权重，再次进行循环，直到时间截止。

下面结合实际处理例程对上述方案进行进一步阐述：

本发明通过将提出的Actor-Critic算法与PI、PD和基于模型的算法进行了比较。同时，四种模拟的跟踪轨迹均采用正弦波函数。

q_1d1＝0.3sin(2t)

q_1d2＝0.6sin(2t)

仿真的初始值为q₁(0)＝[0.001,0.001]^T，q₂(0)＝[0.001,0.001]^T，/>

现有技术中基于PI与PD控制机械臂：

所提出的PI和PD控制器如下：

τ_PI＝-K_Pe₁-K_I∫e₁

其中K_P为比例增益，K_I为积分增益，K_D为导数增益。并设置PI和PD方法的实验结果如图₄-11所示。从图中可以直观、清晰地看到，q₁和q₂可以通过控制器跟踪期望的轨迹，但也存在较大的误差波动，PI控制两段机械臂的误差最终在0.0075和0.02左右，PD控制两段机械臂的误差最终在0.02和0.04左右，均难以实现非常精确的控制。

二、基于模型控制

在基于模型的仿真中，不确定项D的参数为e₁＝e₃＝2kgm²和e₂＝e₃＝e₄＝1kgm²。然后，对于不确定项D，如下所示：

基于模型的控制仿真结果如图12-15所示，可以看出q1和q₂可以通过控制器跟踪所需的轨迹，但两个误差始终不能趋于0，最终均稳定在0.0085左右，不能很好的实现精确控制。

三、基于全状态反馈的Actor-Critic控制

对于基于全状态反馈的Actor-Critic控制，我们选择的控制增益为：第一关节为L₁＝60，第二关节为L₂＝40。这些增益用于约束转矩的计算。定义用于逼近不确定项的径向基函数(RBF)参数为α₁＝0.5，α₂＝0.5。Actor-Critic网络的隐藏层大小都是25个神经元。仿真的初始值设为q₁(0)＝[0.2，0.2]^T，q₂(0)＝[0.25，0.25]^T，

在每一个时间步，期望的关节角度，速度和加速度计算使用正弦波函数。实际关节角度和速度由Baxter机械臂获得。这些值用于计算跟踪误差，然后在交流网络中用于计算和发送联合扭矩命令。

在图16-19中可以看到基于Baxter机械臂模型的交流网络训练的两个关节的跟踪效果曲线与轨迹误差，即使在不同的初始条件下，实际的关节角和速度也可以很好地跟踪期望的轨迹，跟踪误差很快便收敛到零附近的一个小邻域，两个误差最终保持在0.005和0.007以内，实现精准的控制。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于，步骤包括：

2.根据权利要求1所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：步骤S1具体包括：

S1.1、基于ROS系统创建工作空间；

S1.2、在所述工作空间中安装与所述Baxter模型相关依赖；

S1.3、完成Baxter模型编译后执行IP连接，并创建仿真环境；

S1.4、基于所述仿真环境下启动Baxter模型机器人仿真测试；

S1.6、生成Baxter模型机器人的执行控制例程。

3.根据权利要求1所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：步骤S2中，预先构建的Actor和Critic神经网络中包括自定义训练方法，其中包括设置Za函数，Za函数将设定构型机械臂所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量。

4.根据权利要求3所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：所述Actor神经网络中还包括：Sa函数、权重学习率以及通过优化器输出的权重/>的矩阵Q；其中，Sa函数用于将Za函数得到的列向量转化为一维数组并进行正弦运算。

5.根据权利要求4所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：所述Critic神经网络中还包括：奖励函数r、学习率以及通过优化器输出奖励函数r的奖励值；其中，将所有关节的跟踪误差和误差导数构成误差矩阵的转置、与新设定的权重矩阵Q、与误差矩阵做矩阵运算得到的负值作为所述奖励值。

6.根据权利要求5所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：步骤S2中，将所述仿真结果输入所述Critic神经网络中，将输出结果输入所述Actor神经网络中进行训练基于如下公式实施：

再将权重输入至所述Actor神经网络进行训练。

7.根据权利要求6所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法，其特征在于：步骤S2中，当所述机械臂末端执行关节具体为两个关节时，基于所述Actor神经网络控制下的Baxter模型机械臂两个关节的控制力矩公式分别为：