CN100590554C

CN100590554C - 基于确定学习理论的机器人行走控制方法

Info

Publication number: CN100590554C
Application number: CN200810029478A
Authority: CN
Inventors: 王聪; 薛珍贵
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2008-07-15
Filing date: 2008-07-15
Publication date: 2010-02-17
Anticipated expiration: 2028-07-15
Also published as: CN101320251A

Abstract

一种基于确定学习理论的机器人行走控制方法。该方法包括建立机器人行走的模型、建立参考步态模型、神经网络的学习、建立常数神经网络和利用常数RBF神经网络完成行走任务等过程，克服了已有神经网络学习与控制方法在学习能力上的不足，能够实现对机器人闭环控制系统未知动力学模型沿机器人所经历周期步态轨迹在局部区域内的准确学习；能够在稳定的动态控制过程中学习到系统动力学的有效知识，并将其成功地应用到后续的相同或相似的任务当中去。该方法能够在节约能量的基础上实现快速步行，并为拟人机器人的发展提供了有力的支撑。

Description

基于确定学习理论的机器人行走控制方法

技术领域

本发明涉及一种拟人的机器人行走控制方法，具体是指基于确定学习理论的机器人步态学习与控制方法。

背景技术

在科学技术高度发展的今天，机器人系统在诸多领域得到了越来越广泛的应用，如医疗，工业，等。随着机器人系统的广泛应用，智能化、人性化成为其发展的一个重要方向。双足机器人的步态控制是机器人控制领域的一个热点问题。双足机器人本身固有的不稳定性，高阶耦合动力学特性以及其步态的多阶段性，导致了其步行控制是一个具有很大挑战性的课题。

随着神经计算科学的发展，神经网络已经在分类问题、模式识别、数字信号处理等许多领域取得了很大的成就。目前关于神经网络拓扑结构的选择以及神经网络权值的调整都已经有了严格的理论分析方法。鉴于神经网络的学习能力以及它与非线性系统理论中一系列已经发展成熟的工具的融合能力，基于神经网络的控制方法在机器人领域被广泛研究。

基于神经网络的通用逼近性(学习能力)，几种神经网络控制方法在机器人这个具有不确定性的高度非线性系统中应运而生，包括：基于神经网络的逆运动学控制方法，基于模糊神经网络产生双足机器人稳定步态的方法，基于模糊神经网络及H∞控制的机器人步态跟踪混合控制方法，间接自适应神经网络控制方法，以及直接自适应神经网络控制方法等等。

自适应控制从上个世纪50年代发展到今天，已经成为一个十分活跃的研究领域。尽管线性系统的自适应控制领域已经趋于成熟，但是传统的自适应控制方法对于解决非线性自适应控制问题仍存在一定的困难。自适应神经网络的提出为解决这一难题开辟了蹊径。神经网络与自适应控制方法的结合使自适应控制领域的发展迈向了一个新的台阶。

目前，自适应神经网络控制日趋成熟并取得了很大的成绩，如，在保证系统稳定性方面有着越来越严格的系统化的理论分析。合理设计的稳定自适应神经网络在机器人控制中，有着很大的优越性，如，在不需要系统精确的动力学模型的情况下，神经网络控制器仍能够在线实时地应对系统的变化，并能保证闭环系统的稳定。与传统的自适应控制方法相比，神经网络自适应控制方法并不需要像传统自适应控制方法一样计算复杂的递归矩阵。

人工神经网络这种有效的模型逼近器已经在机器人步态行走控制中得到广泛的应用。已有的基于人工神经网络的机器人行走控制方法大都以利用神经网络的通用逼近性为出发点，采用神经网络来逼近机器人系统未知动力学模型。基于人工神经网络的通用逼近性，所提控制方法可以不依赖于系统的动力学模型，因而在系统存在未知动力学模型的情况下仍然可以达到控制目的。神经网络估计参数(即神经网络权值)的收敛性与持续激励条件的满足息息相关。然而，人工神经网络隐含层输出递归向量的持续激励条件的满足是一件很困难的事情。已有的神经网络机器人行走控制方法没有对持续激励条件的满足进行深入的研究，因而在已有的控制方法中通用逼近性的实现实际上并没有得到保证，神经网络的学习能力是相当有限的。这导致了在已有的控制策略中，即使是对于完全相同的步态跟踪控制任务，神经网络都需要重复冗余而繁琐的训练过程。机器人神经网络行走控制问题中，随着机器人系统复杂性的提高，神经网络的规模会相应的增大。神经网络的重复训练过程将涉及到庞大的计算量，从而造成时间及能量的浪费。

对于许多实际系统而言，其固有的动态性能以及系统本身的确定性决定了它更希望有一种具有确定性的学习策略来对其进行控制。确定学习提供了一种动态的确定性的学习策略。确定性学习理论的命名是相对于随机理论而言的，它源于自适应控制理论。

确定学习理论具有如下主要特点，使得它能够有效地应用于机器人系统的学习控制当中(Wang C.and Hill D.J..Learning From Neural Control[J].IEEE Transactionson Neural Networks，2006，17(1)：130-145)：

(1)径向基函数的采用；

(2)反馈闭环控制系统中部分持续激励条件的满足；

(3)在动态的闭环控制过程中实现真正意义上的学习；

(4)闭环系统控制性能的提高。

期望步态轨迹是控制机器人行走的参考信号，直接关系到机器人步态跟踪控制系统的稳定性。机器人稳定步态的产生有几种方式：如基于傅立叶展开及遗传算法，基于零力矩点方法，基于人类的行走模式等等。

发明内容

本发明的目的在于克服上述已有方法在学习能力上的不足，提供一种基于确定学习理论的机器人行走控制方法，利用一种确定性的动态的学习方法(确定学习方法)来完成对机器人系统的行走控制，该方法能在节约能量的基础上实现机器人快速步行。

本发明的目的通过以下步骤实现：

一种基于确定学习理论的机器人行走控制方法，包括如下步骤：

(1)建立机器人行走的模型，建立以机器人关节角的位置以及关节角的角加速度作为状态变量的机器人行走模型，该模型包括已知的动力学模型、未知的动力学模型和有界的干扰；(2)建立参考步态模型，建立一个参考步态模型，来产生期望周期步态轨迹，并作为机器人各个状态变量的跟踪信号；(3)神经网络的学习，根据步骤(1)建立的机器人行走的模型和步骤(2)建立的参考步态模型建立自适应控制器，并嵌入RBF神经网络，根据李亚普诺夫稳定性理论调节RBF神经网络的权值，实现机器人步态轨迹对期望周期步态轨迹跟踪，以及RBF神经网络对机器人系统中的未知动力学模型的逼近；(4)建立常数神经网络，根据确定学习理论，沿机器人系统轨迹的RBF神经网络的神经元满足持续激励条件，其权值收敛到最优值，取权值收敛后的一段时间内各权值的均值作为学习训练结果，并利用这些结果建立常数神经网络；(5)利用常数RBF神经网络完成行走任务，采用步骤(3)所述的自适应控制器，并用步骤(4)所述常数RBF神经网络来代替步骤(3)中自适应控制器的RBF神经网络，实现机器人步态轨迹对期望周期步态轨迹的跟踪，所述常数RBF神经网络用来消除未知动力学模型的影响，提高机器人步态轨迹对期望周期步态轨迹的跟踪精度。

上述方法中，步骤(1)中所述模型包括单足支撑阶段模型和落地阶段模型，

单足支撑阶段模型为：

\{\begin{matrix} {\overset{\cdot}{X}}_{1} = X_{2} \\ {\overset{\cdot}{X}}_{2} = - M {(q)}^{- 1} (C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F (\overset{\cdot}{q}) + τ_{d}) + {M (q)}^{- 1} τ \end{matrix},

其中，X₁＝q，关节角位置向量q＝[q₁，q₂，q₃，q₄，q₅]^T；

是关节角加速度向量，

为摩擦项，是未知的动力学模型；τ_d为未知有界干扰；τ为输入力矩，M(q)是惯性矩阵，

是向心矩阵，C是重力矩阵，g(q)是重力向量；

落地阶段模型为：

{\overset{\cdot}{q}}^{+} = {\overset{\cdot}{q}}^{-} + M^{- 1} (q) J^{T} {({JM}^{- 1} (q) J^{T})}^{- 1} (- {\overset{\cdot}{X}}_{sw}^{-}),

其中，

X_sw＝[x_sw，z_sw]^T为机器人舞动腿末端的轨迹位置，

为舞动腿碰撞地面之前的瞬时速度，

和

分别为碰撞地面前后的关节角速度。

上述方法中，步骤(2)中所述参考步态模型由以下模型表征：

x_{a} = \frac{a}{π} [\frac{2 π}{T_{s}} t - \sin (\frac{2 π}{T_{s}} t)] - a

z_{a} = \frac{d}{2} [1 - \cos (\frac{2 π}{T_{s}} t)]

x_{h} = \frac{1}{2} x_{a} + \frac{a}{2} - a

z_{h} = \frac{1}{2} x_{a} + l_{1} + l_{2} - \frac{d}{2},

其中，t表示时间，x_a、z_a为舞动腿末端的坐标，x_h、z_h代表机器人臀部的坐标位置，a为半步长，d为舞动腿抬脚的最大高度，l₁、l₂为舞动腿两连杆的长度，T_s是完成一次步态行走期望的时间。

上述方法中，步骤(3)中所述自适应控制器如下：

τ = - Z_{1} - c_{2} Z_{2} + C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F_{d} (\overset{\cdot}{q}) + M (q) {\overset{\cdot}{α}}_{1} + {\hat{W}}^{T} S (Z),

其中，

Z₁＝X₁-X_d1

α_{1} = c_{1} Z_{1} + {\overset{\cdot}{X}}_{d 1}

Z₂＝X₂-α₁

{\overset{\cdot}{α}}_{1} = {- c}_{1} X_{2} + c_{1} {\overset{\cdot}{X}}_{d 1} + {\overset{\cdot \cdot}{X}}_{d 1},

X_d1是参考步态模型的状态向量，

是X_d1的导数，

是的导数，c₁，c₂是自适应控制器的反馈增益，

表示神经网络，

是神经网络权值向量，S(Z)是高斯函数。

上述方法中，步骤(3)所述RBF神经网络的神经元的中心点均匀分布于机器人步态轨迹所在的状态空间里，其初始值均为零，RBF神经网络权值的调节律如下：

\overset{\cdot}{\hat{W}} = Γ [- S (Z) Z_{2}^{T} - σ \hat{W}],

其中Γ、σ是调节律的调节参数，Γ＞0，σ＞0。

上述方法中，步骤(3)中期望步态轨迹规定了每一步的时间，若机器人舞动腿在期望的步态时间内并没有着地，则引入额外的比例微分控制器，

所述比例微分控制器由如下式子表征：

τ^{'} = - Z_{1} - c_{2} Z_{2} + C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F_{d} (\overset{\cdot}{q}) + M (q) {\overset{\cdot}{α}}_{1} + {\hat{W}}^{' T} S (Z) - K_{p} (Z_{1} + K_{v} {\overset{\cdot}{Z}}_{1})

其中，

代表了在期望的一步时间末端时刻的神经网络权值向量，K_p，K_v是比例微分控制器的控制参数。

上述方法中，步骤(3)所述的自适应控制器根据机器人步态轨迹对期望周期步态轨迹的跟踪误差的大小选择反馈增益c₁，c₂，跟踪误差越大，则所选择的反馈增益越大，所述反馈增益用来抑制系统未知动力学和干扰的影响，使得机器人步态轨迹对期望周期步态轨迹的跟踪误差在设定的范围内。

上述方法中，步骤(4)所述常数神经网络的权值选取方式由如下式子表征：

\overset{&OverBar;}{W} mea n_{t &Element; [t_{a}, t_{b}]} \hat{W} (t)

其中，[t_a，t_b]代表神经网络权值在完成向其最优值收敛的过渡过程之后的一个时间段，所述常数RBF神经网络是经验知识的表达方式，能够在沿步态轨迹的局部区域里逼近机器人系统中的未知动力学模型。

本发明与现有技术相比具有如下优点和有益效果：(1)所提机器人行走控制方法能够实现对机器人闭环控制系统未知动力学模型沿机器人所经历周期步态轨迹在局部区域内的真正学习。这使得了解未知动力学模型的物理特性成为可能。(2)所提机器人行走控制方法并非无记忆式的依靠重新训练神经网络来实现跟踪控制。它能够在稳定的动态控制过程中学习到闭环系统中的有效知识，并将这些知识成功地应用到后续的相同或相似的控制任务当中去。这个知识的再利用过程无需进行冗余的神经网路参数重新调整。在实际应用中，这在节约时间及能量方面有着很重要的意义

(3)所提机器人行走控制方法为进一步地实现真正意义上的人类的学习能力，如进步展开基于模式的机器人学习与控制，提供了强有力的支撑。

附图说明

图1为5连杆平面机器人示意图。

图2为神经网络对闭环系统未知动力学模型F_v1的学习阶段的权值收敛的仿真图。

图3为神经网络对闭环系统未知动力学模型F_v2的学习阶段的权值收敛的仿真图。

图4为神经网络对闭环系统未知动力学模型F_v3的学习阶段的权值收敛的仿真图。

图5为神经网络对闭环系统未知动力学模型F_v4的学习阶段的权值收敛的仿真图。

图6为神经网络对闭环系统未知动力学模型F_v5的学习阶段的权值收敛的仿真图。

图7为收敛后的神经网络对闭环系统未知动力学模型F_v1的准确逼近的仿真图。

图8为收敛后的神经网络对闭环系统未知动力学模型F_v2的准确逼近的仿真图。

图9为收敛后的神经网络对闭环系统未知动力学模型F_v3的准确逼近的仿真图。

图10为收敛后的神经网络对闭环系统未知动力学模型F_v4的准确逼近的仿真图。

图11为收敛后的神经网络对闭环系统未知动力学模型F_v5的准确逼近的仿真图。

图12为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型F_v1的局部准确逼近的仿真图。

图13为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型F_v2的局部准确逼近的仿真图。

图14为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型F_v3的局部准确逼近的仿真图。

图15为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型F_v4的局部准确逼近的仿真图。

图16为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型F_v5的局部准确逼近的仿真图。

图17为基于经验知识的控制阶段的机器人的关节角q₁、q₂的跟踪情况的仿真图。

图18为基于经验知识的控制阶段的机器人的关节角q₃的跟踪情况的仿真图。

图19为基于经验知识的控制阶段的机器人的关节角q₄、q₅的跟踪情况的仿真图。

具体实施方式

以下结合实施例及附图对本发明作进一步地详细说明，但本发明的具体实施方式不限于此。

实施例：5连杆平面机器人对期望步态的跟踪控制问题

(1)5连杆平面机器人系统模型

5连杆平面机器人的结构如图1如示，其中x表示机器人前进的距离，z表示高度，m₁～m₅表示各连杆的质量，l₁～l₅表示各连杆的长度，q₁～q₅表示各关节点的关节角，a₁～a₅表示各连杆的重心到关节点的距离，x_sw，z_sw为机器人舞动腿末端的轨迹位置，机器人有5个连杆组成，在着地的端点和连杆的各个关节点装有传感器来测量关节角位置，控制器来输出力矩，并通过关节角计算角速度，其行走时的动力学模型如下：

单足支撑阶段模型：

\{\begin{matrix} {\overset{\cdot}{X}}_{1} = X_{2} \\ {\overset{\cdot}{X}}_{2} = - M {(q)}^{- 1} (C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F (\overset{\cdot}{q}) + τ_{d}) + {M (q)}^{- 1} τ \end{matrix}

其中，X₁＝q，

关节角位置向量q＝[q₁，q₂，q₃，q₄，q₅]^T；

为未知的摩擦项；τ_d为未知有界干扰；τ为输入力矩。

M(q)＝{r_ijcos(q_i-q_j)+p_ij}；

C_{m} (q, \overset{\cdot}{q}) = {r_{ij} \sin (q_{i} - q_{j}) {\overset{\cdot}{q}}_{i}};

C＝diag{-h_i}；

g(q)＝[sinq₁，sinq₂，sinq₃，sinq₄，sinq₅]^T；

r_ij，p_ij，h_i，i＝1，2，…5，j＝1，2，…5取值如下：

(1)r_ij，i＝1，2，…5，j＝1，2，…5给出如下：

r_{11} = m_{1} a_{1}^{2} + (m_{2} + m_{3} + m_{4} {+ m}_{5}) l_{1}^{2} + I_{1};

r_{22} = m_{2} a_{2}^{2} + (m_{3} + m_{4} + m_{5}) l_{2}^{2} + I_{2};

r_{33} = m_{3} a_{3}^{2} + I_{3};

r_{44} = m_{4} {(l_{4} - a_{4})}^{2} + m_{5} l_{4}^{2} + I_{4};

r₅₅＝m₅(l₅-a₅)²+I₅；

r_i2＝m₂l₁a₂+(m₃+m₄+m₅)1_l1₂；r₁₃＝m₃l₁a₃；r₁₄＝-m₄l₁(l₄-a₄)-m₅l₁l₄；

r₁₅＝-m₅l₁(l₅-a₅)；r₂₃＝m₃l₂l₃；r₂₄＝-m₄l₂(l₄-a₄)-m₅l₂l₄；r₂₅＝-m₅l₂(l₅-a₅)；

r₃₄＝0；r₃₅＝0；r₄₅＝m₅l₄(1₅-a₅)；r_ij＝r_ji，i＝1，2，…5，j＝1，2，…5.

(2)p_ij，i＝1，2，…5，j＝1，2，…5给出如下：

p_{11} = p_{55} = I_{M} G_{1}^{2};

p_{22} = p_{44} = I_{M} (G_{2}^{2} + G_{1}^{2} - {2 G}_{1} + 1);

p₃₃＝2I_M(1-G₂)²；

p₁₂＝p₂₁＝p₄₅＝p₅₄＝I_MG₁(1-G₁)；p₂₃＝p₃₂＝p₃₄＝p₄₃＝I_MG₂(1-G₂)；

p₁₃＝p₃₁＝p₁₄＝p₄₁＝p₁₅＝p₅₁＝p₂₄＝p₄₂＝p₂₅＝p₅₂＝p₃₅＝p₅₃＝0.

I_M为伺服电机的转动惯量；

G₁为膝关节的驱动装置的自动传动比；

G₂为臀部的驱动装置的自动传动比.

(3)h_i，i＝1，2，…5给出如下：

h₁＝(m₁a₁+m₂l₁+m₃l₁+m₄l₁+m₅l₁)g；h₂＝(m₂a₂+m₃l₂+m₄l₂+m₅l₂)g；

h₃＝m₃a₃g；h₄＝(m₄a₄-m₄l₄-m₅l₄)g；h₅＝(m₅a₅-m₅l₅)g.

m₁＝0.5kg，m₂＝0.5kg，m₃＝0.5kg，m₄＝0.5kg，m₅＝0.5kg；

l₁＝0.14m，l₂＝0.1m，l₃＝0.12m，l₄＝0.1m，l₅＝0.14m；

a₁＝0.07m，a₂＝0.05m，a₃＝0.06m，a₄＝0.05m，a₅＝0.07m；

I₁＝0.000883kg·m²；I₂＝0.000483kg·m²，I₃＝0.000667kg·m²，I₄＝0.000483kg·m²，I₅＝0.000883kg.m²；

I_M＝0.05kg·m²；G₁＝0.5，G₂＝0.5；g＝9.8m/s²；

F_{d} (\overset{\cdot}{q}) = diag (0.5,0.5,0.5,0.5,0.5) * sign (\overset{\cdot}{q});

落地阶段模型：

假设机器人支撑腿与舞动腿之间的转换在瞬间完成。在这短暂的时间段内，机器人的关节角位置保持不变，而关节角速度在这一瞬间发生改变。

{\overset{\cdot}{q}}^{+} = {\overset{\cdot}{q}}^{-} + M^{- 1} {(q) J}^{T} {(J M^{- 1} (q) J^{T})}^{- 1} (- {\overset{\cdot}{X}}_{sw}^{-})

其中，

X_sw＝[x_sw，z_sw]^T为舞动腿末端的轨迹位置，

为舞动腿碰撞地面之前的瞬时速度，

和分别为碰撞地面前后的关节角速度。

(2)控制目标

在系统含有未知动力学模型的情况下，实现真正的对参考步态的步态跟踪控制与学习，且像人类的步行行为一样具有一定的应对外界干扰的能力。

本实施例中，一个类似于人类步态的摆线轨迹被作为参考步态，参考步态如以下方程所描述：

x_{a} = \frac{a}{π} [\frac{2 π}{T_{s}} t - \sin (\frac{2 π}{T_{s}} t)] - a

z_{a} = \frac{d}{2} [1 - \cos (\frac{2 π}{T_{s}} t)]

x_{h} = \frac{1}{2} x_{a} + \frac{a}{2} - a

z_{h} = \frac{1}{2} x_{a} + l_{1} + l_{2} - \frac{d}{2}

其中，x_a、z_a为舞动腿末端的坐标，x_h、z_h代表机器人臀部的坐标位置，a为半步长，d为舞动腿抬脚的最大高度，l₁、l₂如图1所示为每一连杆的长度。基于以上这种简单的方程，针对不同的环境要求可以地通过改变方程的参数来产生不同的期望步态，T_s是完成一次步态行走期望的时间。

(3)神经网络学习阶段

神经网络学习阶段暂不考虑干扰项τ_d，即为零干扰阶段。

本实施例中假设：对于严格设计好的确定性机器人系统，仅仅摩擦

含有未知项。

将摩擦项表示为：

F (\overset{\cdot}{q}) = F_{d} (\overset{\cdot}{q}) + F_{v} (\overset{\cdot}{q})

其中，

K_d＝diag(k_i)代表已知动摩擦；为连续的未知粘性摩擦。

采用神经网络

逼近未知摩擦项其中，神经网络的输入Z＝X₂。选取直接自适应控制器形式如下：

τ = - Z_{1} - c_{2} Z_{2} + C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F_{d} (\overset{\cdot}{q}) + M (q) {\overset{\cdot}{α}}_{1} + {\hat{W}}^{T} S (Z)

其中，

Z₁＝X₁-X_d1

Z₂＝X₂-α₁

α_{1} = {- c}_{1} Z_{1} + {\overset{\cdot}{X}}_{d 1}

{\overset{\cdot}{α}}_{1} = - c_{1} X_{2} + c_{1} {\overset{\cdot}{X}}_{d 1} + {\overset{\cdot \cdot}{X}}_{d 1}

调节律如下：

\overset{\cdot}{\hat{W}} = Γ [- S (Z) Z_{2}^{T} - σ \hat{W}]

每一步落地阶段的考虑：

期望轨迹规定了每一步的时间。若舞动腿在期望的步态时间内并没有着地，则引入额外的比例微分控制器，迫使其着地，即

τ^{'} = - Z_{1} - c_{2} Z_{2} + C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + Cg (q) + F_{d} (\overset{\cdot}{q}) + M (q) {\overset{\cdot}{α}}_{1} + {\hat{W}}^{' T} S (Z) - K_{p} (Z_{1} + K_{v} {\overset{\cdot}{Z}}_{1})

其中，

代表了在期望的一步时间末端时刻的神经网络权值向量。

本实施例中一些主要参数：

系统初始条件

X(0)＝[-0.3017，-0.0044，0，0.3159，0.0186，0.0381，-0.0346，0，0.0412，-0.0406]^T。

控制器参数

神经网络权值初始值

神经网络中心点数N＝3×3×3×3×3＝243，中心点均匀地分布在[-22]×[-22]×[-22]×[-22]×[-22]上；c₁＝2；c₂＝14；Γ＝diag{10}；σ＝0.001；K_p＝diag(7，7，7，7，7)；K_v＝diag(4，4，4，4，4)；

机器人行走训练总步数N_step＝300。

图2～图6所示为神经网络权值的收敛情况，其中，W1～W5分别为5个神经网络的权值。图2为神经网络对闭环系统未知动力学模型F_v1的学习阶段的权值收敛的仿真图。图3为神经网络对闭环系统未知动力学模型F_v2的学习阶段的权值收敛的仿真图。图4为神经网络对闭环系统未知动力学模型F_v3的学习阶段的权值收敛的仿真图。图5为神经网络对闭环系统未知动力学模型F_v4的学习阶段的权值收敛的仿真图。图6为神经网络对闭环系统未知动力学模型F_v5的学习阶段的权值收敛的仿真图。特别地，只有部分神经网络的权值收敛。这与部分持续激励条件的满足是相符合的。

神经网络通用逼近性的实现，即W^TS(Z)沿周期步态轨迹对未知摩擦项

的逼近情况如图7～图11所示，F_v1～F_v5分别表示五个关节点对应的粘性摩擦

图7为收敛后的神经网络对闭环系统未知动力学模型F_v1的准确逼近的仿真图。图8为收敛后的神经网络对闭环系统未知动力学模型F_v2的准确逼近的仿真图。图9为收敛后的神经网络对闭环系统未知动力学模型F_v3的准确逼近的仿真图。图10为收敛后的神经网络对闭环系统未知动力学模型F_v4的准确逼近的仿真图。图11为收敛后的神经网络对闭环系统未知动力学模型F_v5的准确逼近的仿真图。

(4)基于经验知识的控制阶段

基于经验知识的控制阶段考虑外界干扰项τ_d。

选取

其中，

设计矩阵∧为正定对称阵。

对于相同的跟踪任务，在加入了外界干扰τ_d的情况下，引入控制器

τ = - Z_{1} - c_{2} Z_{2} + C_{m} \overset{\cdot}{q} + Cg + F_{d} + M {\overset{\cdot}{α}}_{1} + {\overset{&OverBar;}{W}}^{T} S (Z) - k_{D} S

此外，考虑到落地问题，为保证步态跟踪性能，当落地问题发生时，与神经网络训练过程中的落地控制类似，需引入额外的比例微分控制器。

考虑系统存在外部有界干扰τ_d＝[0.4cos(t)，0.4exp(-t)，2^-t，0.1cos(3t)，0.5cos(t)]^T。

系统具有与神经网络学习阶段不同的初始状态

X(0)＝[-0.3491，-0.0175，0，0.2618，0.2695，0.03，-0.03，0，0.05，-0.05]^T。

控制器参数

K_D＝diag(7，7，7，7，7)，∧＝diag(3，3，3，3，3)；其余设计参数与前面的神经网络训练学习阶段相同。

机器人行走训练总步数N_step＝50。

神经网络W^TS(Z)可以沿轨迹对闭环系统未知摩擦项完成准确的逼近，如图12～图16所示。系统的步态跟踪性能如图17～图19所示，其中q₁～q₅表示各关节点的关节角，图17为基于经验知识的控制阶段的机器人的关节角q₁、q₂的跟踪情况的仿真图。图18为基于经验知识的控制阶段的机器人的关节角q₃的跟踪情况的仿真图。图19为基于经验知识的控制阶段的机器人的关节角q₄、q₅的跟踪情况的仿真图。从图17～图19可以看到在很短的时间内(N_step＝50；N_step＝300)系统便能够完成很好的跟踪。