CN109108964B

CN109108964B - 一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法

Info

Publication number: CN109108964B
Application number: CN201810826096.5A
Authority: CN
Inventors: 袁源; 张鹏; 孙冲; 于洋; 万文娅; 李晨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2021-06-08
Anticipated expiration: 2038-07-25
Also published as: CN109108964A

Abstract

本发明公开了一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法，首先考虑2自由度空间机械臂的强非线性和关节之间的强耦合性，建立空间机械臂离散非线性系统模型；其次，利用神经网络无限逼近非线性函数特性，设计龙伯格观测器，根据系统输出信息估计系统中全部状态信息。最后，利用神经网络，设计多目标自适应动态规划近似最优控制迭代算法。本发明具有解决强非线性与耦合性，多关节协调控制等优点，设计的离散控制器便于工程实现。

Description

一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法

技术领域

本发明属于空间机械臂控制领域，涉及一种空间机械臂协调控制方法，具体涉及一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法。

背景技术

在空间任务中，如：在轨服务、主动碎片清除和星际探测任务中，空间机械臂控制系统发挥着越来越大的作用。然而，由于多自由度的机械臂具有强非线性特性以及关节之间的强耦合特性，严重阻碍了控制器设计。因此，寻求一种能够解决非线性特性以及耦合特性的控制算法显得尤为重要。此外，在多自由度的机械臂系统中，状态信息只有部分输出，这显著增加了控制器设计的难度。因此，需要设计一种非线性状态观测器来估计出系统中的全部状态信息，进而为控制器的设计奠定基础。另外，在多自由度机械臂系统中，不同关节之间需要协调控制，根据每个机械臂关节的优先级设计多目标控制策略更为合理。

针对空间机械臂的非线性控制，目前已经提出了多种控制方法。常见的非线性控制方法有滑模控制方法，自抗扰控制方法等。然而，以上控制方法没有明确的控制目标，且不能得到最优控制策略。最近，基于自适应动态规划的最优控制方法广泛应用于非线性系统中，通过求解非线性哈密尔顿-贝尔曼方程，得到近似最优控制策略。此外，龙伯格类观测器已经广泛被用于估计非线性系统中的状态信息。Nash均衡博弈理论可以用来求解多目标的优化控制问题。然而，如何把自适应动态规划算法、龙伯格类观测器以及Nash均衡理论相结合，设计一种多目标非合作自适应控制策略一直是一个难题。

发明内容

本发明的目的在于提供一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法，以克服现有技术的不足，本发明既能保证多关节机械臂的稳定，又能协调多关节机械臂控制。

为达到上述目的，本发明采用如下技术方案：

一种基于自适应动态规划Nash博弈的空间机械臂协调控制方法，包括以下步骤：

步骤1：根据二自由度空间机械臂的强非线性和关节之间的强耦合性，建立空间机械臂离散非线性系统模型；

步骤2：利用神经网络无限逼近非线性函数特性，设计龙伯格观测器，根据空间机械臂离散非线性系统模型输出信息估计空间机械臂离散非线性系统模型中全部状态信息；

步骤3：基于估计的全部状态信息，设计Nash控制策略的自适应动态规划迭代策略，并利用神经网络近似出多目标最优控制策略。

进一步地，步骤1具体为：

建立空间机械臂动力学模型：

其中，θ＝[θ₁ θ₂]^T，θ_i为第i个关节的角度，i＝1,2，M(θ)∈R^2×2为空间机械臂的惯性矩阵，R^2×2表示2×2的实数矩阵空间，

为包含科里奥利力与离心力的矩阵，R²表示2维的实数向量，τ为控制输入力矩，y为系统状态输出；

M(θ)和

的具体表达式如下：

其中，

D₁₂＝D₂₁＝(m₂+0.5M₂)L₁L₂cos(θ₁-θ₂)

C₁₁＝C₂₂＝0,

在上式中，m₁和m₂分别为关节1末端与关节2末端的总质量；M₁和M₂分别为关节1和关节2的质量，L₁和L₂分别为关节1和关节2的长度；

将式(1)改为状态空间形式为：

y＝Dx, (2)

其中，

u＝τ,

D＝[I 0]

上式中，I为单位矩阵，u为控制输入，b为控制器系数，D为系统输出系数，0表示元素为0的矩阵；

采用欧拉方法，将式(2)离散化为：

x_k+1＝x_k+Τf(x_k)+Τbu_k (3)

其中，T为采样周期，x_k为状态x在第k时刻的值；u_k为输入u在第k时刻的值，将式(3)进一步写为：

x_k+1＝Ax_k+F(x_k)+Bu_k (4)

其中，A∈R^4×4为方阵，F(x_k)＝Τf(x_k)+(I-A)x_k，B＝Τb；

利用神经网络的无限逼近性质，将式(4)近似为以下空间机械臂离散非线性系统模型：

x_k+1＝Ax_k+W_Fφ_F(x_k)+Bu_k+ε_k (5)

其中，W_F为神经元的权重矩阵；φ_F(·)为基函数向量并满足||φ_F(·)||≤∈_φ；∈_φ为一个正数；ε_k为神经网络的近似误差。

进一步地，步骤2具体为：

针对式(5)，龙伯格观测器设计如下：

式中，

分别为x_k和W_F的估计值；L为观测器增益，y_k为系统实际输出，φ_F为神经元的基函数向量，权重

的自适应调整率为：

式中，

和

为可调参数，对于给定的标量ζ，观测器增益L能够根据以下优化问题得到：

min tr(P)

其中，

其中，P为待求的辅助正定矩阵变量，Π为辅助矩阵。

进一步地，步骤3具体为：

首先令B＝[B¹ B²]，

其中B¹和B²分别为B中第一列和第二列的向量；

和

分别为u_k中第一行和第二行中的向量，然后利用神经网络近似出多目标最优控制策略：

步骤3.1：令迭代次数s＝0，

其中，

为第s步估计的值函数初值；

步骤3.2：计算控制率：

式中，

为正定矩阵R_ii的逆矩阵，

为权重矩阵，φ_V,i(·)为神经网络的基函数，且

其中，η为辅助变量；

步骤3.3：计算值函数：

式中，权重矩阵

的调整律为

式中，

为一个可调的正数，U_i(·)为辅助函数，其表达式为

Q_i和R_ij为正定矩阵；

步骤3.4：计算

并判断计算值否小于10^-8，如果

则迭代停止，输出控制策略

否则令s＝s+1，转到步骤3.2)。

与现有技术相比，本发明具有以下有益的技术效果：

本发明设计的离散自适应动态规划近似最优控制器，便于工程实现；另外本发明采用龙伯格观测器，可以有效解决非线性系统的输出反馈控制问题，利用观测器的输出信息，基于自适应动态规划的多目标Nash控制策略可以有效协调两个机械臂关节之间的控制，既能保证多关节机械臂的稳定，又能协调多关节机械臂控制。

附图说明

图1为本发明的流程图；

图2为采用本发明方法进行仿真的结果图。

具体实施方式

下面对本发明作进一步详细描述：

本发明针对空间机械臂系统中的强非线性、强耦合性以及部分状态输出特性，提出了一种基于自适应动态规划的多目标近似最优控制策略，首先，设计龙伯格类观测器估计系统中全部状态信息；其次，设计Nash控制策略的自适应动态规划迭代策略；最后，利用神经网络近似出多目标最优控制策略。

本发明解决其技术问题采用的技术方案是：基于自适应动态规划Nash博弈的空间机械臂协调控制算法，通过以下步骤实现：

1、模型建立

空间机械臂动力学模型为：

M(θ)和

的具体表达式如下：

其中，

D₁₂＝D₂₁＝(m₂+0.5M₂)L₁L₂cos(θ₁-θ₂)

C₁₁＝C₂₂＝0,

将式(1)改为状态空间形式为：

y＝Dx, (2)

其中，

u＝τ,

D＝[I0]

上式中，I为单位矩阵，u为控制输入，b为控制器系数，D为系统输出系数，0表示元素为0的矩阵。

采用欧拉方法，将式(2)离散化为：

x_k+1＝x_k+Τf(x_k)+Τbu_k (3)

其中，T为采样周期，x_k为状态x在第k时刻的值；u_k为输入u在第k时刻的值，将式(3)可以进一步写为：

x_k+1＝Ax_k+F(x_k)+Bu_k (4)

其中，A∈R^4×4为方阵，F(x_k)＝Τf(x_k)+(I-A)x_k，B＝Τb；

利用神经网络的无限逼近性质，系统(4)可以近似为以下形式：

x_k+1＝Ax_k+W_Fφ_F(x_k)+Bu_k+ε_k (5)

其中，W_F为神经元的权重矩阵；φ_F(·)为基函数向量并满足||φ_F(·)||≤∈_φ；∈_φ为一个很小的正数；ε_k为神经网络的近似误差。

2、龙伯格观测器设计

针对离散系统模型(5)，龙伯格观测器设计如下：

式中，

分别为x_k和W_F的估计值；L为观测器增益。y_k为系统实际输出，φ_F为神经元的基函数向量，权重

的自适应调整率为：

式中，

和

为可调参数。对于给定的标量ζ，观测器增益L可根据以下优化问题得到：

min tr(P)

其中，

其中，P为待求的辅助正定矩阵变量，Π为辅助矩阵。

3、自适应动态规划迭代算法设计

首先，令B＝[B¹ B²]，

其中B¹和B²分别为B中第一列和第二列的向量；

和

分别为u_k中第一行和第二行中的向量。下面给出基于神经网络的迭代自适应动态规划算法。

1)首先令迭代次数s＝0，

其中，

为第s次估计的值函数初值；

2)计算控制率

式中，

为正定矩阵R_ii的逆矩阵，

为权重矩阵，φ_V,i(·)为神经网络的基函数，且

其中，η为辅助变量。

在本实例中，权重矩阵

的初值为

基函数φ_V,i(·)选择为

3)计算值函数：

式中，权重矩阵

的调整律为

式中，

为一个可调的正数，U_i(·)为辅助函数其表达式为

Q_i和R_ij为正定矩阵。在本实例中，

Q_i＝diag([1 1 1 1])，R_ij＝1。

4)计算

并判断是否小于10^-8，如果

则迭代停止，输出控制策略

否则s＝s+1，转到步骤2)。

参见图2，利用本发明方法进行仿真，e_k为实际状态值x_k与期望状态值x_d的差。e_1,k,e_2,k,e_3,k,e_4,k为向量e_k中的元素。从仿真图中可以得出，系统的误差状态最终收敛到0，也就是说机械臂的实际状态跟踪上了给定的期望值状态。因此，本仿真验证了基于自适应动态规划Nash博弈的空间机械臂算法的有效性。