CN109581868A

CN109581868A - 基于评判辨识结构的可重构机器人分散神经最优控制方法

Info

Publication number: CN109581868A
Application number: CN201811105107.7A
Authority: CN
Inventors: 董博; 安天骄; 秦; 秦一; 靳伟宁; 周帆; 王树祥; 刘克平; 李元春
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-04-05
Anticipated expiration: 2038-09-21
Also published as: CN109581868B

Abstract

基于评判辨识结构的可重构机器人分散神经最优控制方法，属于机器人控制算法领域，为了解决现有技术中存在分散最优控制精度低的问题，该方法首先建立可重构机器人系统动力学模型，其次构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性；本发明解决了现有技术中存在分散最优控制精度低的问题，为可重构机器人提供稳定性和精确性，并且可以满足各种任务的需求。

Description

基于评判辨识结构的可重构机器人分散神经最优控制方法

技术领域

本发明涉及一种可重构机器人系统的分散神经最优控制方法，属于机器人控制算法领域。

背景技术

可重构机器人由电源装置、减速设备、执行器、传感器和计算系统组成。这些模块可以被组装成具有标准机械接口的预定参数，以满足各种任务的需求。从这一优势出发，可重构机器人经常被用于复杂而危险的工作环境，如救灾、空间探索、高温/低温作业等。因此，可重构机器人需要适当的控制系统来保证机器人系统的稳定性，同时考虑到控制性能和功耗组合的优化实现。

可重构机器人的重要特性是机器人模块可以添加、删除和替换，而不需要调整其他模块的控制参数。换句话说，对于可重构机器人系统，在子系统和本地控制器之间存在着物理上的信息交换限制，对于这些子系统和本地控制器来说，它们拥有集中控制器的能力是不可靠的。

对于复杂的相互关联的非线性系统，尤其是可重构机器人系统，交联项的性质和规模与内部动力学有很大的不同。分散神经最优控制策略是在非线性系统的动态信息是完全未知的前提下进行研究的，因此这些方法的应用局限于求解机器人系统特定类的最优控制问题，而没有实现最优的动态补偿。事实上，在设计机器人分散最优控制器时，尤其是在可重构机器人系统中，需要充分利用现有的动态模型信息。

赵博等人在International Journal of Control,Automation and Systems上发表的”Model-free Adaptive Dynamic Programming Based Near-optimal DecentralizedTracking Control of Reconfigurable Manipulators”，该文中分散最优控制没有考虑复杂的互联非线性系统，特别是对于可重构机器人系统，交联项的性质和大小与内部动力学完全不同，所以该方法存在控制精度低的问题。

发明内容

本发明为了解决现有技术中存在分散最优控制精度低的问题，提出了一种基于评判辨识结构的可重构机器人分散神经最优控制方法。

本发明解决技术问题的方案是：

基于评判辨识结构的可重构机器人分散神经最优控制方法，其特征是，该方法首先建立可重构机器人系统动力学模型，其次构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

基于评判辨识结构的可重构机器人分散神经最优控制方法，包括如下步骤：

步骤一，建立可重构机器人系统动力学模型如下：

上式中，i代表第i个模块，I_mi是转动轴的转动惯量，γ_i是齿轮传动比，q_i，和分别是关节位置，速度和加速度，是关节摩擦项，是关节子系统间的耦合力矩交联项，τ_si是耦合力矩在力矩传感器的位置，d_i(q_i)是干扰力矩，τ_i是电机输出转矩；

定义系统的状态向量控制输入u_i＝τ_i；

则子系统的状态空间的形式可以表示为：

其中，表示动力学模型中已建模的部分，表示耦合力矩交联项，是模型不确定项，包括摩擦模型误差和外界扰动；

步骤二，构建代价函数如下：

其中，s_i(e_i)定义为且e_i＝x_i1-x_id和分别代表第i个关节的位置和速度跟踪误差，其中α_ei＞0为确定常数；x_id、分别是第i个关节期望的位置、速度和加速度，为效用函数，和是确定的正常数矩阵；

构建哈密顿方程如下:

其中，是第i个关节的期望加速度，为代价函数J_i(s_i)的梯度；接下来，定义如下最优代价函数：

根据式(15)、(16)，基于非线性系统最优控制设计理论，易知满足如下HJB方程：

最优控制律定义为如下形式：

其中，u_i1为基于局部动力学信息的模型补偿控制律，u_i2为辨识策略的神经网络控制律，为基于自适应动态规划的神经最优控制律；

将式(17)的HJB方程改写成：

接下来，定义u_i1为

u_i1是根据第i个关节模块的局部动态信息来设计的；

步骤三，交联项动力学的辨识；

交联项h_i可以用一个单层神经网络来进行逼近：

σ_ih(x_ih,x_D)表示神经网络激活函数，w_ih表示未知理想权重，x_ih表示确定的神经网络状态， x_D＝[x_1d,x_2d,…,x_md]^T,m＜i代表已知有界参考状态向量，ε_ih(x_ih)表示神经网络逼近误差；在(23) 的基础上，考虑如下有界控制输入u_ih非线性动力学系统：

用神经网络辨识逼近(24)，得到：

其中，为辨识系统状态x_ih，h_i的逼近为为权重的估计值，r_ih为鲁棒积分符号误差的反馈项，定义为：

r_ih＝k_ihe_ih+v_ih (27)

其中，是辨识误差，v_ih由如下广义解给出：

其中，k_ih，α_ih，γ_ih，δ_i1代表正控制常参数，sgn(·)表示符号函数，结合(24),(25)，辨识动态误差为：

其中，在此基础上，定义辨识误差函数：

根据式(28)、(29)对时间t的导数，有如下定义：

神经网络权重更新设计如下：

其中，proj表示光滑投影运算，Γ_ih表示正常数增益矩阵；

结合式(21)，(25)，(26)，(27)，得到交联项辨识策略的神经网络控制律u_i2为：

权值由(31)更新；

步骤四，通过神经网络来近似代价函数J_i(s_i)，定义如下：

其中，w_ci是理想的权值向量，σ_ci(s_i)是激活函数，ε_ci是神经网络的逼近误差，J_i(s_i)的梯度通过神经网络近似为：

其中：和分别代表激活函数的梯度和逼近误差；结合(21)，(37)

由于理想权值w_ci是未知的，所以用近似权值w_ci建立一个评价神经网络来估计代价函数：

根据哈密顿方程(15)和代价函数(36)以及它的梯度(37)，哈密顿方程可以进一步改写为：

其中，e_cHi是由评判网络逼近误差而得到的残差，它可以定义为：

以同样的方式近似哈密顿方程，可得：

定义误差方程为权值估计误差为结合式 (40)与式(42)，可以得到一个用表示e_ci的方程：

训练和调整评价网络的权值信息，采用目标函数它可以被训练来取到最小值，且神经网络的权值可以通过下式进行更新：

其中，α_ci＞0表示评价神经网络的学习速率；推导出神经网络权值的动态误差，引入下式：

通过式(43)，(44)和(45)，得到评价神经网络的动态误差如下所示：

结合(18)和(36)，理想基于自适应动态规划的神经最优控制律为：

在实现在线策略迭代算法来完成策略改进时，得到了近似最优控制律如下所示：

结合式(22),(35)与(48)，可得到基于评判辨识结构的可重构机器人分散神经最优控制律为：

本发明的有益效果如下：

在位置跟踪方面，本发明改善了系统的跟踪性能，并且降低了评判神经网络对未知非线性项的计算负担，关节位置的稳态误差减小。

在控制力矩方面，本发明的控制力矩更加连续和平滑，不仅可以保持系统渐进稳定，而且可以降低每个关节的能量损耗。

在训练神经网络方面，本发明通过在线策略迭代的方法可以更快的训练神经网络。

因此，本发明解决了现有技术中存在分散最优控制精度低的问题，为可重构机器人提供稳定性和精确性，并且可以满足各种任务的需求。

附图说明

图1为本发明基于评判辨识结构的可重构机器人分散神经最优控制原理图。

图2为本发明基于评判辨识结构的可重构机器人分散神经最优控制方法流程图。

图3为本发明仿真验证中的可重构机器人构型A关节1(图3-(a))和关节2(图3-(b))的提出方法的关节位置跟踪曲线。

图4为本发明仿真验证中的可重构机器人构形A的提出方法的关节位置跟踪误差曲线。

图5为本发明仿真验证中的可重构机器人构型A关节1(图5-(a))和关节2(图5-(b))的提出方法的关节位置跟踪曲线。

图6为本发明仿真验证中的可重构机器人构形A关节1的提出方法的评判神经网络权重调节曲线。

图7为本发明仿真验证中的可重构机器人构形A关节2的提出方法的评判神经网络权重调节曲线。

图8为本发明仿真验证中的可重构机器人构型B关节1(图8-(a))和关节2(图8-(b))的提出方法的关节位置跟踪曲线。

图9为本发明仿真验证中的可重构机器人构形B的提出方法的关节位置跟踪误差曲线。

图10为本发明仿真验证中的可重构机器人构型B关节1(图10-(a))和关节2(图10-(b))的提出方法的控制力矩曲线。

图11为本发明仿真验证中的可重构机器人构形B关节1的提出方法的评判神经网络权重调节曲线。

图12为本发明仿真验证中的可重构机器人构形B关节2的提出方法的评判神经网络权重调节曲线。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，根据控制器参数与期望动力学信息，与期望位置变量、关节输出转矩与摩擦参数估计值相结合得到基于局部动力学信息的模型补偿控制律u_i1。确定神经网络初值，得到神经网络权值更新率，得到辨识误差函数，获得辨识策略的神经网络控制律u_i2。通过近似代价函数，通过评判网络，得到基于自适应动态规划的神经最优控制律把u_i1、u_i2与相加，得到分散神经最优控制律，运用到动力学模型，获得关节位置变量。与期望位置变量作差得到位置误差，再进而作用到神经网络权值更新率。

如图2所示，基于评判辨识结构的可重构机器人分散神经最优控制方法，该方法首先建立可重构机器人系统动力学模型，其次构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

1、动力学模型的建立

建立可重构机器人系统的动力学模型如下：

上式中，i代表第i个模块，I_mi是转动轴的转动惯量，γ_i是齿轮传动比，q_i，和分别是关节位置，速度和加速度，是关节摩擦项，是关节子系统间地耦合力矩交联项，τ_si是耦合力矩在力矩传感器的位置，d_i(q_i)是干扰力矩，τ_i是电机输出转矩。

(1)式中，关节摩擦项表示为关于关节位置和速度的函数：

其中，b_fi是粘性摩擦系数，f_ci是库伦摩擦相关系数，f_si是静态相关系数，f_τi是关于Stribeck 效应的位置参数，是位置误差和其他摩擦模型误差。假设f_si和f_τi的标称值和它们的实际值是相接近的，可以通过标称参数值和来线性化忽略高阶项后可以得到：

结合式(2)和式(3)，关节摩擦项可以近似等于：

其中，表示摩擦参数不确定项，分别为给定的摩擦参数的估计值，且表示为：

此外，(1)式子中的关节子系统间的耦合力矩交联项可以表示为：

其中，z_mi是第i个转子旋转轴上的单位矢量，z_lj是第j个关节旋转轴上的单位矢量，z_lk是第 k个关节旋转轴上的单位矢量。

便于分析关节子系统间的耦合力矩交联项，将与表示为：

其中，i,j,k分别代表第i,j,k个关节。是单位向量z_mi与z_lj的点积，是校正误差；是单位向量z_mi与z_lk×z_lj的点积，是校正误差。

(1)中d_i(q_i)项定义为：

d_i(q_i)＝d_ih(q_i)+d_is(q_i) (9)

其中，d_ih(q_i)表示力矩传输波纹，d_is(q_i)表示力矩传感干扰。

重新改写式(1)中第i个子系统的动力学模型可以得到：

其中，定义系统的状态向量控制输入u_i＝τ_i。

第i个子系统的状态空间的形式可以表示为：

其中表示动力学模型中已建模部分，表示耦合力矩交联项，是模型不确定项，包括摩擦模型误差和外界扰动。

性质1：根据摩擦力模型(4)，如果参数b_fi，f_ci，f_si和f_τi都是有界的，可以得出是有界的，且ρ_Fil＝[ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4]^T是一个已知的常数向量，ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4为已知的正常数上界。因此，摩擦力模型的上界可以定义为

性质2：摩擦力项有界，且ρ_fpi对于任意的位置q_i与速度是一个已知的有界常数。

性质3：z_mi，z_lk与z_lj是沿着相应关节旋转方向的单位矢量，与得到的向量乘积是有界的。此外，当关节稳定时，它的加速度与速度一定是有界的，因此，根据在(7)与(8)中交联项的形式，可以得出这样的结论：如果关节j和关节k是稳定的(j,k＜i)，那么与是有界的，且满足 ρ_Ui与ρ_Vi是已知正常数上界。由此可知，性质3说明了如果关节j和关节k是稳定的(j,k＜i)，那么与是有界的，这意味着当设计第i个关节的控制器时，低阶关节i-1也已经是稳定的。

性质4：d_ih(q_i)主要受到波形发生器和谐波传动器中柔轮最大变形量影响，因此d_ih(q_i) ≤ρ_dhi。

性质5：d_is(q_i)的上界｜d_is(q_i)｜≤ρ_dsi是由力矩传感偏离决定的。

2、代价函数与哈密顿函数的构建

首先，构建代价函数为：

其中，s_i(e_i)定义为且e_i＝x_i1-x_id和分别代表第i个关节的位置和速度跟踪误差，其中α_ei＞0为确定常数。x_id、分别是第i个关节期望的位置、速度和加速度，为效用函数，和是确定的正常数矩阵。根据性质1，2，3，4，5，可得：

耦合力矩交联项h_i和模型不确定项它们上界函数H_i,W_i满足下列关系：

定义哈密顿方程如下:

其中，是第i个关节的期望加速度，为代价函数J_i(s_i)的梯度。接下来，定义如下最优代价函数：

基于非线性系统最优控制设计理论下，易知满足如下HJB方程：

若存在并且连续可微分机器人系统(11)的最优控制律为：

HJB方程可以改写成：

接下来，把最优控制分解成：

分别解决项φ_i,h_i,可以修正HJB方程为：

定义控制律u_i1为：

由于u_i1是根据第i个关节模块的局部动态信息来设计的。

接下来，通过基于策略迭代的学习算法，来求HJB方程的解。选择一个很小的正常数ε_ip，让开始的允许控制策略基于控制策略根据与求解而后采用对控制策略进行更新，如果δ_p＞0且则停止运算，得到近似最优控制，否则δ_p＝δ_p+1然后继续求解

3、交联项动力学的辨识

要辨识交联项动力学，首先要给出以下假设：

假设1：神经网络逼近误差是有上界的，上界是一个未知常数。

假设2：激活函数σ(·)和它的导数σ′(·)是有界的。

利用假设1和2，交联项h_i可以用一个单层神经网络来进行逼近：

σ_ih(x_ih,x_D)表示神经网络激活函数，w_ih表示未知理想权重，x_ih表示确定的神经网络状态， x_D＝[x_1d,x_2d,…,x_md]T,m＜i代表已知有界参考状态向量，ε_ih(x_ih)表示神经网络逼近误差。在(23) 的基础上，考虑如下有界控制输入u_ih非线性动力学系统：

用神经网络辨识逼近(24)，得到：

r_ih＝k_ihe_ih+v_ih (26)

其中，是辨识误差，v_ih由如下广义解给出：

其中，在此基础上，定义辨识误差函数：

根据(28)，(29)对时间t的导数，有如下定义：

神经网络权重更新设计如下：

其中，proj表示光滑投影运算，Γ_ih表示正常数增益矩阵，(30)可以重新改写为：

其中，定义为：

其中定义一个辅助项用代替中 P_ih＝P_ih2+P_ih3。根据假设1和2，使用公式(29)，(31)，(33)可以获得以下边界：

其中μ_i1(·),μ_i2(·)为正非增全局可逆函数，ξ_im,m＝1,…,6为可计算正常数。

权重由(32)更新。

4、基于评判神经网络的代价函数近似实现

利用单层神经网络来近似代价函数J_i(s_i)，定义如下：

其中：和分别代表激活函数的梯度和逼近误差。结合(21)，(37)

以同样的方式近似哈密顿方程，可得：

其中，α_ci＞0表示评价神经网络的学习速率。推导出神经网络权值的动态误差，引入下式：

结合(18)和(36)，得到基于自适应动态规划的神经最优控制律为：

在实现在线策略迭代算法来完成策略改进时，得到了基于自适应动态规划的近似神经最优控制律如下所示：

结合式(22),(35)与(48)，可得到基于评判-辨识结构的可重构机器人分散神经最优控制律为：

5、仿真验证

验证所提出的分散神经最优控制方法的有效性，对二自由度可重构机器人模型的两种不同构形进行仿真验证，其中，控制器参数由表1给出：

表1控制器参数

两种构形的理想轨迹如下所示：

构形A：

x_1d＝0.4sin(0.3t)-0.1cos(0.5t)

x_2d＝0.3cos(0.6t)+0.6sin(0.2t)

构形B：

x_1d＝0.2cos(0.5t)+0.2sin(0.4t)

x_2d＝0.3cos(0.2t)-0.4sin(0.6t)

选取权值向量为：构形A初始值为构形B初始值为激活函数σ_ci(s_i)(i＝1,2)选取为：

辨识的激活函数选择为有5个隐含层的对称S型函数，辨识参数选择为 k_ih＝800,α_ih＝350,γ_ih＝5,δ_i1＝0.5,Γ_ih＝0.1I，其中I是单位矩阵。其余的设计参数、控制参数和不确定性界限由表1给出。摩擦模型参数选取为：

f_ci＝0.35+0.7sin(10θ_i)n·m

f_si＝0.5+sin(10θ_i)n·m

f_τi＝0.1+0.2sin(10θ_i)s²/rad²

b_fi＝0.5+0.3sin(10θ_i)n·m·s/rad

图3给出了系统的关节位置跟踪曲线。跟踪性能的提高在于基于模型的动态补偿的实现和交联项的识别，这可降低系统中未知非线性动力学的规模和评判神经网络的计算负担。

图4是构型A的提出方法的位置跟踪误差曲线。图中关节位置的稳态误差减小，由于动态补偿是通过模型补偿控制器和基于交联项辨识的学习控制器来实现的，并且在基于自适应动态规划的神经最优控制律下也对模型的不确定性进行了补偿。

图5是构型A的控制力矩曲线，在曲线中，控制力矩是连续、平滑的电机输出力矩，可以在实际的可重构机器人系统上实施的。提出的神经最优控制不仅可以保证系统闭环渐进稳定，而且优化保持在适当范围内的功率消耗，以匹配每个连接模块中电机的输出功率。

图6和图7是构型A的各独立关节子系统的神经网络权值调整曲线。实施在线策略迭代和评判神经网络的训练，可以看到权值在10秒以前可以收敛，评判神经网络收敛到 W_c1＝[21.5714,43.4167,39.2565],W_c2＝[26.4409,30.5433,26.4850]。

图8-12给出了构型B的关节位置跟踪曲线、位置跟踪误差曲线、控制力矩曲线和关节1、关节2权值收敛结果曲线。它与构型A相比较，有相似的结果。这意味着所提出的分散最优控制律不需要对控制参数进行调整，适用于可重构机器人的不同控制。可以看到，构型B关节1的位置跟踪误差明显小于构型A。因为构型B关节1不受重力的影响，减小了关节动力学和不确定性的大小。构型B中评判神经网络收敛到 W_c1＝[22.8395,33.1094,37.5858],W_c2＝[32.2989,7.0446,16.0892]

仿真结果表明，所提出的分散最优控制方法能为可重构机器人提供稳定性和精确性，以满足各种任务的要求。

Claims

1.基于评判辨识结构的可重构机器人分散神经最优控制方法，其特征是，该方法首先建立可重构机器人系统动力学模型；其次构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解；然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识；接下来采用神经网络对代价函数进行近似；最后通过仿真验证所提出控制方法的有效性。

2.根据权利要求1所述的基于评判辨识结构的可重构机器人分散神经最优控制方法，其特征在于，该方法包括如下步骤：

步骤一，建立可重构机器人系统动力学模型如下：

定义系统的状态向量控制输入u_i＝τ_i；

则子系统的状态空间的形式可以表示为：

其中，B_i＝(I_miγ_i)^-1∈R⁺，表示动力学模型中已建模的部分，表示耦合力矩交联项，θ_i(x_i)＝B_i(-f_pi(x_i1,x_i2)-Y(x_i2)F_i-d_i(x_i1))是模型不确定项，包括摩擦模型误差和外界扰动；

步骤二，构建代价函数如下：

构建哈密顿方程如下:

其中，是第i个关节的期望加速度，J_i(0)＝0,为代价函数J_i(s_i)的梯度；

接下来，定义如下最优代价函数：

最优控制律定义为如下形式：

将式(17)的HJB方程改写成：

接下来，定义u_i1为

u_i1是根据第i个关节模块的局部动态信息来设计的；

步骤三，交联项动力学的辨识；

交联项h_i可以用一个单层神经网络来进行逼近：

σ_ih(x_ih,x_D)表示神经网络激活函数，w_ih表示未知理想权重，x_ih表示确定的神经网络状态，x_D＝[x_1d,x_2d,…,x_md]^T,m＜i代表已知有界参考状态向量，ε_ih(x_ih)表示神经网络逼近误差；在(23)的基础上，考虑如下有界控制输入u_ih非线性动力学系统：

用神经网络辨识逼近(24)，得到：

r_ih＝k_ihe_ih+v_ih (27)

其中，是辨识误差，v_ih由如下广义解给出：

其中，在此基础上，定义辨识误差函数：

根据式(28)、(29)对时间t的导数，有如下定义：

神经网络权重更新设计如下：

其中，proj表示光滑投影运算，Γ_ih表示正常数增益矩阵；

权值由(31)更新；

步骤四，通过神经网络来近似代价函数J_i(s_i)，定义如下：

▽J_i(s_i)＝(▽σ_ci(s_i))^Tw_ci+▽ε_ci ^T (37)

其中：和▽ε_ci分别代表激活函数的梯度和逼近误差；结合(21)，(37)

以同样的方式近似哈密顿方程，可得：

定义误差方程为权值估计误差为结合式(40)与式(42)，可以得到一个用表示e_ci的方程：