CN111880412A

CN111880412A - 基于单评判网络的可重构机器人零和神经最优控制方法

Info

Publication number: CN111880412A
Application number: CN202010805559.7A
Authority: CN
Inventors: 董博; 安天骄; 门小东; 朱新野; 张振国; 刘克平; 李元春
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-03
Anticipated expiration: 2040-08-12
Also published as: CN111880412B

Abstract

基于单评判辨网络的可重构机器人系统的零和神经最优控制方法，属于机器人控制算法领域，为了解决现有技术中存在不确定性干扰的问题，该方法首先建立可重构机器人系统的动力学模型，其次构建代价函数与HJI方程，通过基于策略迭代的学习算法，来求HJI方程的解，然后通过对可重构机器人关节子系统间的耦合交联项的观测，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。该方法改善了系统的跟踪性能，并且采用了单评判神经网络对未知非线性项的计算负担，关节位置的稳态误差减小；不仅可以保持系统渐进稳定，而且可以降低每个关节的能量损耗；为可重构机器人提供稳定性和精确性，并且可以满足各种任务的需求。

Description

基于单评判网络的可重构机器人零和神经最优控制方法

技术领域

本发明涉及一种可重构机器人系统的单评判网络零和神经最优控制方法，属于机器人控制算法领域。

背景技术

可重构机器人可以根据不同的任务需求对自身构形进行重新组合与配置，从而表现出许多传统机器人所不具有的优势。“模块化”与“可重构”作为可重构机器人设计的两大基本要求，其主要思想是将一个复杂的机器人系统分解为多个具有较高便携性与可维护性的子系统，从而有效缩短机器人系统的设计与制造的周期。可重构机器人系统不可避免在未知环境下完成工作，并且要综合考虑并确保系统的稳定性、鲁棒性、精确性、节能性等指标，因此在环境信息不确定的条件下采用合适的控制策略是十分必要的。

最优控制作为现代控制理论的重要组成部分，其研究的核心问题是对于一个给定的被控系统，选择合适的控制策略使系统的某些性能指标达到最优。对于可重构机器人系统，获取其最优控制策略则需要求解哈密顿-雅克比-埃塞克方程，而该方程是一类非线性偏微分方程，难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强有力工具，在自适应动态规划系统中，神经网络被设计用来近似性能指标函数并估计哈密顿- 雅克比-埃塞克方程的解。

对于复杂的相互关联的非线性系统，尤其是可重构机器人系统，交联项的性质和规模与内部动力学有很大的不同。通过设计状态扩展观测器对耦合交联项进行观测，并结合通过求解哈密顿-雅克比-埃塞克方程的零和最优控制律以及最坏干扰律，得到单评判网络的零和神经最优控制律，运用到动力学模型，获得关节位置变量。

发明内容

本发明为了解决现有技术中存在不确定性干扰的问题，提出了一种基于单评判辨网络的可重构机器人系统的零和神经最优控制方法。

本发明解决技术问题的方案是：

基于单评判网络的可重构机器人零和神经最优控制方法，其特征是，该方法首先建立可重构机器人系统的动力学模型，其次构建代价函数与HJI方程，通过基于策略迭代的学习算法，来求HJI方程的解，然后通过对可重构机器人关节子系统间的耦合交联项的观测，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

基于单评判网络结构的可重构机器人零和神经最优控制方法，包括如下步骤：

步骤一，建立可重构机器人系统动力学模型如下：

上式中，u∈Rⁿ代表控制力矩，q∈Rⁿ表示关节位置向量，

表示关节速度向量，

表示关节加速度向量，M(q)∈R^n×n代表惯性矩阵，

表示哥氏力和离心力项， G(q)∈Rⁿ代表重力项。

在实际应用中，诸如空间探索或灾难救援，可重构机器人有很多关节模块，集中控制会带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷，考虑可重构机器人的每一个子系统，其中包含交联耦合项，第i个子系统的动力学模型可表示为:

其中，q_i,

u_i,

M_i,C_i是第i个q,

u,G,M,C的元素向量，M_ij(q)和

表示矩阵 M(q)和

第ij个元素，

表示交联耦合项，d_i(q_i)是不确定干扰项。

令

则(2)所示的动力学模型可以描述为如下状态空间形式：

其中，x_i是第i个子系统的状态，h_i(x)是交联耦合项，x代表整个机器人的状态向量，x_i1,x_i2是x_i的第1,2个元素。

步骤二，构建代价函数如下：

其中，e_i＝x_i1-x_id和

分别代表第i个关节的位置和速度跟踪误差，其中Υ_i,θ_i为确定常数。x_id、

分别是第i个关节期望的位置、速度和加速度，

为效用函数，

和

是确定的正常数矩阵。

定义哈密顿方程如下:

其中，

是第i个关节的期望加速度，J_i(0)＝0,

为代价函数J_i(s_i)的梯度。

接下来，定义如下最优代价函数：

若

存在并且连续可微分可重构机器人系统的最优控制律为以及最坏干扰律为：

HJI方程可以改写成：

步骤三，交联项动力学的观测：

基于线性状态扩张观测器，状态空间可以扩张为：

其中x_i3为系统的扩张状态，

为x_i3对时间的导数。线性扩展观测器的模型可以描述为：

其中l_ij,j＝1,2,3为观测器选择的增益参数。其中，

ω_i0＞0为常数，α_ij,j＝1,2,3选择为满足特征多项式s³+α_i1s²+α_i2s+α_i3＝(s+1)³的根，其中

在特征多项式中可以表示为：

其中ω_i0为状态扩张观测器的带宽。

令观测误差为

根据(13)和(14)，观测误差可以定义为：

令

误差动力学可以描述为：

其中

α_ij,j＝1,2,3的选择是令A_i是符合赫尔维茨的。

步骤四，利用单层神经网络来近似代价函数

定义如下：

其中，W_ic是理想的权值向量，

是激活函数，ε_ic是神经网络的逼近误差，

的梯度通过神经网络近似为：

其中：

和

分别代表激活函数的梯度和逼近误差。

由于理想权值W_ic是未知的，所以用近似权值

建立一个评价神经网络来估计代价函数：

根据哈密顿方程(7)和代价函数(18)以及它的梯度(19)，哈密顿方程可以进一步改写为：

其中，e_iJh是由评判网络逼近误差而得到的残差。

以同样的方式近似哈密顿方程，可得：

定义误差方程为：

权值估计误差定义为：

训练和调整评价网络的权值信息，采用目标函数

它可以被

训练来取到最小值，且神经网络的权值可以通过下式进行更新：

其中，α_i表示评价神经网络的学习速率。

评价神经网络的动态误差如下所示：

其中，υ_i定义为：

结合(11)和(19)，得到基于自适应动态规划的神经最优控制律以及最坏干扰律为：

在实现在线策略迭代算法来完成策略改进时，得到了基于自适应动态规划的近似零和神经最优控制律

和最坏干扰律

如下所示：

本发明的有益效果如下：

在位置跟踪方面，本发明改善了系统的跟踪性能，并且采用了单评判神经网络对未知非线性项的计算负担，关节位置的稳态误差减小。

在控制力矩方面，本发明的控制力矩更加连续和平滑，不仅可以保持系统渐进稳定，而且可以降低每个关节的能量损耗。

在训练神经网络方面，本发明通过在线策略迭代的方法可以更快的训练神经网络。

因此，本发明解决了现有技术中存在不确定性干扰的最优控制精度低的问题，为可重构机器人提供稳定性和精确性，并且可以满足各种任务的需求。

附图说明

图1为本发明基于单评判网络结构的可重构机器人零和神经最优控制原理图。

图2为本发明基于单评判网络结构的可重构机器人零和神经最优控制方法流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，根据控制器参数与期望动力学信息，与期望位置变量作比较。通过确定神经网络初值，得到神经网络权值更新率。交联项模型与其观测值相比较，得到观测误差函数，获得交联项动力学的观测信息。通过近似代价函数与评判网络，得到基于单评判网络的自适应动态规划的零和最优控制律

以及最坏干扰律

把交联项动力学观测信息、

与

相结合，得到单评判网络的零和神经最优控制律，运用到动力学模型，获得关节位置变量。与期望位置变量作差得到位置误差，再进而作用到神经网络权值更新率。

如图2所示，基于单评判网络的可重构机器人零和神经最优控制方法，该方法首先建立可重构机器人系统动力学模型，其次构建代价函数与HJI方程，通过基于策略迭代的学习算法，来求HJI方程的解，然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

1、动力学模型的建立

建立可重构机器人系统的动力学模型如下：

上式中，u∈Rⁿ代表控制力矩，q∈Rⁿ表示关节位置向量，

表示关节速度向量，

表示关节加速度向量，M(q)∈R^n×n代表惯性矩阵，

表示哥氏力和离心力项， G(q)∈Rⁿ代表重力项。

其中，q_i,

u_i,

M_i,C_i是第i个q,

u,G,M,C的元素向量，M_ij(q)和

表示矩阵 M(q)和

第ij个元素，

表示交联耦合项，d_i(q_i)是不确定干扰项。

令

则(2)所示的动力学模型可以描述为如下状态空间形式：

其中，x_i是第i个子系统的状态，

其中，h_i(x)是交联耦合项，x代表整个机器人的状态向量，x_i1,x_i2是x_i的第1,2个元素。

2、代价函数与哈密顿函数的构建

首先，构建代价函数为：

其中，e_i＝x_i1-x_id和

分别是第i个关节期望的位置、速度和加速度，

为效用函数，

和

是确定的正常数矩阵。

定义哈密顿方程如下:

其中，

是第i个关节的期望加速度，J_i(0)＝0,

为代价函数J_i(s_i)的梯度。接下来，定义如下最优代价函数：

基于非线性系统最优控制设计理论下，易知

满足如下HJI方程：

若

HJI方程可以改写成：

接下来，通过基于策略迭代的学习算法，来求HJI方程的解。选择一个很小的正常数ε_i，让k＝0,

开始的允许控制策略

以及干扰律

基于控制策略

和干扰律

根据

与

求解

而后采用

对控制策略进行更新，

对干扰策略进行更新。如果k＞0且

则停止运算，得到近似最优控制律以及干扰律，否则k＝k+1然后继续求解

3、交联项动力学的观测

采用状态扩张观测器来观测交联项动力学h_i(x)。

根据状态空间(4)，首先假设可重构机器人系统没有不确定性干扰，基于线性状态扩张观测器，状态空间可以扩张为：

其中x_i3为系统的扩张状态，

为x_i3对时间的导数。线性扩展观测器的模型可以描述为：

其中l_ij,j＝1,2,3为观测器选择的增益参数。其中，

在特征多项式中可以表示为：

其中ω_i0为状态扩张观测器的带宽。

令观测误差为

根据(13)和(14)，观测误差可以定义为：

令

误差动力学可以描述为：

其中

α_ij,j＝1,2,3的选择是令A_i是符合赫尔维茨的。

4、基于评判神经网络的代价函数近似实现

利用单层神经网络来近似代价函数

定义如下：

其中，W_ic是理想的权值向量，

是激活函数，ε_ic是神经网络的逼近误差，

的梯度通过神经网络近似为：

其中：

和

分别代表激活函数的梯度和逼近误差。结合(11)，(19)得到

由于理想权值W_ic是未知的，所以用近似权值

建立一个评价神经网络来估计代价函数：

其中，e_iJh是由评判网络逼近误差而得到的残差。

以同样的方式近似哈密顿方程，可得：

定义误差方程为：

权值估计误差定义为：

训练和调整评价网络的权值信息，采用目标函数

它可以被

其中，α_i表示评价神经网络的学习速率。

评价神经网络的动态误差如下所示：

其中，υ_i定义为：

和最坏干扰律

如下所示：

5、仿真验证

验证所提出的零和神经最优控制方法的有效性，对二自由度可重构机器人模型的两种不同构形进行仿真验证，其中，动力学模型为：

构形A：

构形B：

两种构形的参考轨迹定义为：

选取权值向量

为：

构形A和 B初始值选取为

激活函数选取为：

通过Matlab仿真结果表明，所提出的零和神经最优控制方法能为可重构机器人提供稳定性和精确性，以满足各种任务的要求。

Claims

1.基于单评判网络结构的可重构机器人零和神经最优控制方法，其特征是，该方法首先建立可重构机器人系统动力学模型；其次构建代价函数与HJI方程，通过基于策略迭代的学习算法，来求HJI方程的解；然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测；接下来采用神经网络对代价函数进行近似；最后通过仿真验证所提出控制方法的有效性。

2.根据权利要求1所述的基于单评判网络结构的可重构机器人零和神经最优控制方法，其特征在于，该方法包括如下步骤：

步骤一，建立可重构机器人系统动力学模型如下：