CN113093538A

CN113093538A - 一种模块化机器人系统的非零和博弈神经-最优控制方法

Info

Publication number: CN113093538A
Application number: CN202110316833.9A
Authority: CN
Inventors: 张振国; 刘克平; 董博; 朱新野; 马冰; 王悦西; 杨宏韬; 李岩
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-09

Abstract

本发明提出了一种模块化机器人系统的非零和博弈神经‑最优控制方法，首先基于力矩反馈技术建立了模块化机器人的动力学模型，并将动力学模型描述为一类存在交联耦合项的子系统整合的形式。基于局部动力学信息的鲁棒控制律补偿系统的摩擦项，将最优轨迹跟踪问题转化为n个参与者的非零和神经‑最优控制问题。采用自适应动态规划算法，对评判函数用单评判网络进行逼近，并解决了耦合的哈密顿‑雅可比方程。

Description

一种模块化机器人系统的非零和博弈神经-最优控制方法

技术领域

本发明涉及不确定环境下补偿-评判结构的模块化机器人非零和博弈神经-最优控制方法，属于机器人控制算法领域。

背景技术

模块化机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求，基于上述优点，模块化机器人经常应用于不确定环境中，例如人机交互、外界碰撞等。此外，在不确定环境下，模块化机器人需要兼顾控制精度和功耗的合适控制系统。

最优控制作为控制理论的重要组成部分，其研究的核心问题是对于一个给定的被控系统，选择合适的控制策略使系统的某些性能指标达到最优。对于模块化机器人系统，获取其最优控制策略则需要求解耦合的哈密顿-雅克比方程，而该方程是一类非线性偏微分方程，难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强有力工具，在自适应动态规划系统中，神经网络被设计用来近似性能指标函数并估计哈密顿-雅克比方程的解。

对于不确定环境下的非线性系统，尤其是模块化机器人系统，通过设计补偿-评判结构的非零和神经-最优控制，并结合通过求解耦合的哈密顿-雅克比方程得到非零和最优控制律，运用到动力学模型，获得关节位置变量。

发明内容

本发明为了解决传统的模块化机器人控制方法中存在不确定环境情况下，机器人关节的跟踪性能较低的问题，提出一种性能较好的非零和最优控制方法，以实现不确定环境下模块化机器人系统的高精度非零和最优控制。将模块化机器人系统的动力学模型描述为一个相互耦合的子系统的合成，通过求解耦合的HJ方程，结合补偿结构以及近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化，并最终实现完备的非零和神经-最优控制。

本发明解决技术问题的方案是：

一种模块化机器人系统的非零和博弈神经-最优控制方法，其特征是，首先建立模块化机器人系统动力学模型，通过对模块化机器人关节子系统间的耦合交联项的分析，然后构建代价函数与耦合的HJ方程，接下来采用神经网络对代价函数进行近似，从而得到本发明所提出的补偿-评判结构的非零和博弈神经-最优控制律。

该方法包括如下步骤：

step1，建立模块化机器人系统动力学模型如下：

上式中，下标i代表第i个模块，I_mi是转动轴的转动惯量，γ_i是齿轮传动比，θ_i，

和

分别是关节位置，速度和加速度，

是关节摩擦项，

是关节子系统间的关节子系统间的耦合交联项，τ_is是关节输出转矩，τ_i是电机输出转矩；

令g_i＝(I_imγ_i)^-1∈R⁺，定义状态向量

控制输入u_i＝τ_i。重新改写式(1)中第i个子系统的动力学模型可以得到：

其中，

表示动力学模型中的已精确建模和估计的部分，

是模型不确定项，包括摩擦模型误差和关节子系统间的耦合力矩交联项以及不确定环境项。定义系统的状态向量

控制输入u_i＝τ_i；

step2，构建代价函数为：

其中，s(e(τ))定义为

为滤波误差，且e＝x₁-x_d和

分别代表关节的位置和速度跟踪误差，x_d与

分别是期望的位置和速度，α_e为确定常数，U_i(s,u₁,...,u_n)为效用函数，

和

是确定的正常数矩阵；

定义哈密顿方程如下：

其中，

为代价函数J_i(s)的梯度，

为计算辅助项，

为期望的加速度；

定义如下最优代价函数：

已知在最优控制设计下，J_i ^*(s,u₁,...,u_n)满足如下耦合的HJ方程：

令满足式(14)的分散最优控制律

定义为如下形式：

其中，u_i1是鲁棒控制律，

是最优补偿控制律；

定义鲁棒控制律u_i1为：

u_i1＝u_i1C+u_i1F (16)

其中u_i1C,u_i1F分别为鲁棒常数与变量补偿的控制律，其中u_i1C可以定义为：

其中上式控制律的参数可以由已经测量和已知项得到。

u_i1F＝u_i1Fp+Y_i(x_i2)(u_i1FYa+u_i1FYb) (18)

其中u_i1Fp，u_i1FYa,u_i1FYb可以定义为：

其中ε_iFp,ε_iFrc,ρ_iFrm,ε_iFvm代表为已知的函数阈值，并为正常数；

step3，通过神经网络来近似代价函数J_i(s)，定义如下：

其中，W_ic是理想的权值向量，φ_ic(s)是激活函数，ε_ic是神经网络的逼近误差，J_i(s)的梯度通过神经网络近似为：

定义激活函数φ_ic(s)为：

由于理想权值W_ic是未知的，所以用近似权值

建立一个评价神经网络来估计代价函数：

根据哈密顿方程(12)和HJ方程(14)，哈密顿方程可以进一步改写为：

其中，e_icH是由神经网络逼近误差而得到的残差；

以同样的方式近似哈密顿方程，可得：

定义误差方程为

权值估计误差为

结合式(24)与式(25)，可以得到一个用

表示e_ic的方程：

为了训练和调整评价网络的权值信息，采用目标函数

它可以被

训练来取到最小值，且神经网络的权值可以通过下式进行更新：

其中，α_ic＞0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差，引入下式：

通过式(24)，(25)，得到评价神经网络的动态误差如下所示：

其中正常数

以及辅助量定义为

因此得到近似最优控制律

如下所示：

结合式(16)与(30)，可得模块化机器人系统的非零和神经-最优控制律

为：

本发明的有益效果如下：

本发明所述的一种模块化机器人系统的非零和博弈神经-最优控制方法，可以在面向不确定环境的条件下，使机器人系统实现良好的稳定性与控制精度。

本发明所述一种模块化机器人系统的非零和博弈神经-最优控制方法，可以在提高模块化机器人控制精度的同时，降低系统执行器的能耗。

附图说明

图1为本发明一种模块化机器人系统的非零和博弈神经-最优控制方法原理图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，本发明一种模块化机器人系统的非零和博弈神经-最优控制方法，其实现中关键处理方法及过程如下：

1、建立动力学模型

建立模块化机机器人系统的动力学模型如下：

和

分别是关节位置，速度和加速度，

是关节摩擦项，

是关节子系统间的耦合交联项，τ_is是关节输出转矩，τ_i是电机输出转矩。

(1)式中，关节摩擦项

可以考虑为如下的关于关节位置和速度的函数：

其中，是关于Stribeck效应的位置参数，

分别为给定的摩擦参数的估计值，

是位置误差和其他摩擦模型误差。假设f_is和f_iτ的标称值和他们的实际值是相接近的，我们就可以通过标称参数值

和

来线性化

忽略高阶项后，关节摩擦项

可以近似等于：

其中，

表示摩擦参数不确定项，且

表示为：

此外，(1)式子中的关节子系统间的耦合交联项

可以表示为：

其中，v_mi是第i个转子旋转轴上的单位矢量，v_lj是第i个关节旋转轴上的单位矢量，v_lk是第k个转子旋转轴上的单位矢量。

为了便于分析关节子系统间的耦合力矩交联项，将

表示为：

其中，

下脚标i,j,k分别代表第i,j,k个关节。

是单位向量v_mi与v_lj的点积，

是校正误差；

是单位向量v_mi与v_lkv_lj的点积，

是校正误差。

耦合关节力矩τ_is是由关节力矩传感器测得，其中：

τ_is＝τ_isf+τ_isc (8)

其中τ_isf为自由空间下关节力矩传感器测得、τ_isc是由于连续或者瞬时碰撞导致的环境接触。

令g_i＝(I_imγ_i)^-1∈R⁺，定义状态向量

其中，

表示动力学模型中的已精确建模和估计的部分，

控制输入u_i＝τ_i。

性质1：根据摩擦力模型(2)，如果参数f_ib，f_ic，f_is，f_iτ都是有界的，我们可以得出

是有界的，且

ρ_Fil＝[ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4]是一个已知的常数向量，ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4为已知的正常数上界。因此，摩擦力模型的上界可以定义为

性质2：摩擦力项

有界，且

ρ_fpi对于任意的位置θ_i与速度

是一个已知的有界常数。

性质3：v_mi，v_lk与v_lj是沿着相应关节旋转方向的单位矢量，

与

得到的向量乘积是有界的。此外，当关节稳定时，它的加速度与速度一定是有界的，因此，根据在(6)与(7)中交联项的形式，可以得出这样的结论：如果关节j和关节k是稳定的(j,k＜i)，那么

是有界的。由此可知，性质3说明了如果关节j和关节k是稳定的(j,k＜i)，那么

是有界的，这意味着当我们设计第i个关节的控制器时，低阶关节i-1也已经是稳定的。

为了方便模块化机器人控制器的设计，将子系统扩张为n个参与者的状态空间形式：

其中，x＝[x₁,x₂]^T∈R²ⁿ代表子系统的全局状态，x₁＝[x₁₁,...,x_i1,...,x_n1]^T，x₂＝[x₁₂,...,x_i2,...,x_n2]^T代表位置与速度的全局向量，f(x)＝[f₁(x₁),...,f_i(x_i),...,f_n(x_n)]^T为系统的动力学向量，Ξ(x)＝[Ξ₁(x),...,Ξ_i(x),...,Ξ_n(x)]^T为不确定项，G_j＝[0,..,g_j,...,0]^T为输入矩阵，g_j＝(I_jmγ_j)^-1是矩阵G_j的第j个元素。

2、构建代价函数与哈密顿函数

首先，构建代价函数为：