CN113219842A

CN113219842A - 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质

Info

Publication number: CN113219842A
Application number: CN202110648754.8A
Authority: CN
Inventors: 王桐; 王雨佳; 邱剑彬; 纪文强
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-06
Anticipated expiration: 2041-06-10
Also published as: CN113219842B

Abstract

本发明公开一种基于自适应动态规划的机械臂最优跟踪控制方法，采用自适应动态规划技术，针对机械臂系统设计了一种最优跟踪控制方案。首先，建立机械臂系统模型；其次，设计关于跟踪误差的新型无限域性能指标；接着，利用自适应动态规划技术和神经网络技术设计出近似最优跟踪控制器。本发明解决了强化学习在设计最优跟踪控制器时，对被控系统的限制，同时，简化了跟踪控制器的步骤。

Description

基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质

技术领域

本发明涉及最优跟踪技术领域，具体来说是一种基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质。

背景技术

在工程应用中，本实施例不仅希望被控对象在设计的控制器下经过一段时间达到稳定，同时更希望设计的控制器是要求的性能指标下最优的。为了解决这一难题，最优控制的思想被引入。然而当设计最优跟踪控制器时，为了保证性能指标是有界的，一般会把最优控制方案分为两步进行设计，一步是设计稳态控制器，一步设计误差反馈控制器。这样设计出来的最优控制器严格的说是相对于误差动态系统最优的，而不是相对于原系统最优的。同时，还要求被控对象含有零平衡点，这给基于自适应动态规划技术设计最优控制器带来了很多的限制。

综上所述，现有的最优控制方案仍然存在以下几个难题：

1)如何设计关于原系统的最优跟踪控制器。

2)如何设计被控对象不含零平衡点的最优跟踪控制器。

如申请号为202010572028.8公开的一种基于强化学习的导弹纵向姿态控制算法，该方法设计了一种基于强化学习的导弹纵向姿态控制算法。该方案首先建立导弹纵向姿态的数学模型，并基于这个建立的模型设计与跟踪误差相关的性能指标函数，利用最优控制理论，设计最优的姿态跟踪控制器。该方法存在以下缺点：

1)被控对象含有零平衡点。

2)跟踪控制器设计分为两部分，过程复杂

又如申请号为201810799985.7公开的一种基于自适应动态规划的分布式最优协同容错控制方法；该方法利用自适应动态规划技术设计了一种分布式最优容错控制方案。首先建立大规模被控对象的模型；接着利用最优控制理论设计最优控制器；最后，设计估计器估计系统中发生的未知故障，进而设计一种分布式最优容错控制方法。该方法存在以下缺点：

1)此方案缺少仿真验证或者实验验证；

2)此方案被控对象含有零平衡点。

发明内容

本发明所要解决的技术问题在于采用自适应动态规划技术，针对机械臂系统设计了一种最优跟踪控制方案。

本发明通过以下技术手段实现解决上述技术问题的：

基于自适应动态规划的机械臂最优跟踪控制方法，包括以下步骤：

步骤1、建立机械臂系统的数学模型；

步骤2、设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器；

步骤3、利用神经网络计算求得近似最优控制器

步骤4、仿真验证所提方法的有效性。

进一步的，所述步骤1具体为：

建立机械臂系统的数学模型如下

其中，

是对称正定矩阵，

代表力矩阵，

代表重力向量，

代表角度向量，它的一阶和二阶导数用符号

和

表示，分别代表角速度向量和角加速度向量，τ∈R²代表系统的控制输入。

进一步的，所述步骤2具体为：设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器

为了方便表达，定义

和u＝τ；因此，系统模型(1)可以表示为

定义角度的参考信号为

则，跟踪误差表示如下

定义一个新的向量

它的导数用

表示；因此，一种新型的无限域性能指标设计如下

其中，

Q∈R^4×4和R∈R^4×4为4行4列的正定矩阵；因此，哈密顿方程可定义如下

其中，

为性能指标关于

的偏导数；利用系统方程和定义的误差变量，有

其中

定义最优性能指标如下

则，根据最优理论得

令u^*代表最优控制器，则

计算得

进一步的，所述步骤3具体为：

定义

其中，

和W＝[w₁，w₂，...，w_N]^T分别为神经网络的基函数向量和最优权值向量，

为逼近误差；公式(11)关于

求偏导数得

代入公式(6)中得

定义

为神经网络权值的估计，则

公式(13)减去公式(14)，得

定义神经网络权值的估计误差为

有

定义代价函数为

则神经网络权值估计的更新率可以设计如下

因此，近似最优跟踪控制器表示如下

与上述方法对应的，本发明还公开一种基于自适应动态规划的机械臂最优跟踪控制系统，包括：

数学模型建立模块，建立机械臂系统的数学模型；

最优跟踪器设计模块，设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器；

近似最优控制器计算模块，利用神经网络计算求得近似最优控制器

仿真模块，仿真验证所提方法的有效性。

进一步的，所述数学模型建立模块具体为：

建立机械臂系统的数学模型如下

其中，

是对称正定矩阵，

代表力矩阵，

代表重力向量，

代表角度向量，它的一阶和二阶导数用符号

和

进一步的，所述最优跟踪器设计模块具体为：设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器

为了方便表达，定义

和u＝τ；因此，系统模型(1)可以表示为

定义角度的参考信号为

则，跟踪误差表示如下

定义一个新的向量

它的导数用

表示；因此，一种新型的无限域性能指标设计如下

其中，

其中，

为性能指标关于

的偏导数；利用系统方程和定义的误差变量，有

其中

定义最优性能指标如下

则，根据最优理论得

令u^*代表最优控制器，则

计算得

进一步的，所述近似最优控制器计算模块具体为：

定义

其中，

为逼近误差；公式(11)关于

求偏导数得

代入公式(6)中得

定义

为神经网络权值的估计，则

公式(13)减去公式(14)，得

定义神经网络权值的估计误差为

有

定义代价函数为

则神经网络权值估计的更新率可以设计如下

因此，近似最优跟踪控制器表示如下

本发明还提供一种处理设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的方法。

本发明的优点在于：

本发明采用自适应动态规划技术，针对机械臂系统设计了一种最优跟踪控制方案。首先，建立机械臂系统模型；其次，设计关于跟踪误差的新型无限域性能指标；接着，利用自适应动态规划技术和神经网络技术设计出近似最优跟踪控制器。本发明解决了强化学习在设计最优跟踪控制器时，对被控系统的限制，同时，简化了跟踪控制器的步骤。

附图说明

图1为本发明实施例中基于自适应动态规划的机械臂最优跟踪控制方法所考虑的机械臂结构示意图；

图2为本发明实施例中基于自适应动态规划的机械臂最优跟踪控制方法所获得的控制器控制方框图；

图3、图4为本发明实施例中基于自适应动态规划的机械臂最优跟踪控制方法仿真中机械臂的角度和对应参考信号的变化曲线；

图5为本发明实施例中基于自适应动态规划的机械臂最优跟踪控制方法仿真中代价函数随时间的变化曲线图；

图6为本发明实施例中基于自适应动态规划的机械臂最优跟踪控制方法仿真中控制输入信号随时间的变化曲线图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开一种基于自适应动态规划的机械臂最优跟踪控制方法，如图1所示，包括以下步骤：

步骤1、建立机械臂系统的数学模型；

步骤3、利用神经网络计算求得近似最优控制器

步骤4、仿真验证所提方法的有效性。

下面针对每一步骤进行详细描述：

步骤1，考虑如图，2所示的机械臂系统，建立机械臂系统的数学模型如下

其中，

是对称正定矩阵，

代表力矩阵，

代表重力向量，

代表角度向量，它的一阶和二阶导数用符号

和

表示，分别代表角速度向量和角加速度向量，τ∈R²代表系统的控制输入。本实施例的目的是利用自适应动态规划技术设计最优跟踪控制器

步骤2、设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器

为了方便表达，本实施例定义

和u＝τ。因此，系统模型(1)可以表示为

定义角度的参考信号为

则，跟踪误差可以表示如下

定义一个新的向量

它的导数用

表示。因此，一种新型的无限域性能指标设计如下

其中，

Q∈R^4×4和R∈R^4×4为4行4列的正定矩阵。

因此，哈密顿方程可定义如下

其中，

为性能指标关于

的偏导数。利用系统方程和定义的误差变量，本实施例有

其中

定义最优性能指标如下

则，根据最优理论得

令u^*代表最优控制器，则

计算得

步骤3、利用神经网络计算求得近似最优控制器

由公式(10)可知，

是未知的，所以不能直接得到最优控制器。接下来本实施例利用神经网络技术构造未知的性能指标函数和近似最优跟踪控制器。

定义

其中，

为逼近误差。公式(11)关于

求偏导数得

代入公式(6)中得

定义

为神经网络权值的估计，则

公式(13)减去公式(14)，得

定义神经网络权值的估计误差为

本实施例有

定义代价函数为

则神经网络权值估计的更新率可以设计如下

因此，近似最优跟踪控制器表示如下

本实施例所提控制方法的控制方框图如下图1所示。

步骤4、仿真验证所提方法的有效性

机械臂的详细数学模型表示如下

其中

系统参数为

l₁＝1m，l₂＝0.8m，g＝9.8m/s²。参考信号设计为q_1r＝0.5sin(2t)+0.3sin(t)，q_2r＝1+sin(2t)，性能指标参数设计为Q＝6I_2×2，R＝2I_2×2。仿真结果如图3至图6所示。其中图3和图4为机械臂的角度和对应参考信号的变化曲线，同时，也给出了跟踪误差的变化曲线。可以看出，本实施例所提的方法可以使机械臂的角度信号很好的跟踪上对应的参考信号。图5给出了代价函数随时间的变化曲线，可以看到随着时间的变化，代价函数越来越小。图6给出了控制输入随时间的变化曲线。从仿真结果，本实施例可以得到本实施例所提的最优跟踪控制方案可以得到很好的控制效果，同时代价函数也越来越小。

与上述方法对应的，本实施例公开一种基于自适应动态规划的机械臂最优跟踪控制系统，如图1所示，包括：

数学模型建立模块，建立机械臂系统的数学模型；

仿真模块，仿真验证所提方法的有效性。

下面针对每一步骤进行详细描述：

数学模型建立模块，考虑如图，2所示的机械臂系统，建立机械臂系统的数学模型如下

其中，

是对称正定矩阵，

代表力矩阵，

代表重力向量，

代表角度向量，它的一阶和二阶导数用符号

和

最优跟踪器设计模块，设计关于跟踪误差的新型无限域性能指标并利用自适应动态规划技术设计最优跟踪控制器

为了方便表达，本实施例定义

和u＝τ。因此，系统模型(1)可以表示为

定义角度的参考信号为

则，跟踪误差可以表示如下

定义一个新的向量S＝[e₁，e₂]^T，它的导数用

表示。因此，一种新型的无限域性能指标设计如下

其中，

Q∈R^4×4和R∈R^4×4为4行4列的正定矩阵。

因此，哈密顿方程可定义如下

其中，

为性能指标关于

的偏导数。利用系统方程和定义的误差变量，本实施例有

其中

定义最优性能指标如下

则，根据最优理论得

令u^*代表最优控制器，则

计算得

由公式(10)可知，

定义

其中，

为逼近误差。公式(11)关于

求偏导数得

代入公式(6)中得

定义

为神经网络权值的估计，则

公式(13)减去公式(14)，得

定义神经网络权值的估计误差为

本实施例有

定义代价函数为

则神经网络权值估计的更新率可以设计如下

因此，近似最优跟踪控制器表示如下

本实施例所提控制方法的控制方框图如下图1所示。

步骤4、仿真验证所提方法的有效性

机械臂的详细数学模型表示如下

其中

系统参数为

l₁＝1m，l₂＝0.8m，g＝9.8m/s²。参考信号设计为q_1r＝0.5sin(2t)+0.3sin(t)，q_2r＝1+sin(2t)，性能指标参数设计为Q＝6I_2×2，R＝2I_2×2。仿真结果如图3至图6所示。

图3：第一个子图中的实线为参考信号随时间的变化曲线，虚线为实际的角度状态信号随时间变化的曲线。第二个子图为跟踪误差信号随时间的变化曲线；

图4：第一个子图中的实线为参考信号随时间的变化曲线，虚线为实际的角度状态信号随时间变化的曲线。第二个子图为跟踪误差信号随时间的变化曲线；其中图3和图4为机械臂的角度和对应参考信号的变化曲线，同时，也给出了跟踪误差的变化曲线。可以看出，本实施例所提的方法可以使机械臂的角度信号很好的跟踪上对应的参考信号。

图5给出了代价函数随时间的变化曲线，可以看到随着时间的变化，代价函数越来越小。图6给出了控制输入随时间的变化曲线。从仿真结果，本实施例可以得到本实施例所提的最优跟踪控制方案可以得到很好的控制效果，同时代价函数也越来越小。

本实施例还提供一种处理设备，包括至少一个处理器，以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。