CN116048085B

CN116048085B - 一种移动机器人的故障估计和容错迭代学习控制方法

Info

Publication number: CN116048085B
Application number: CN202310080001.0A
Authority: CN
Inventors: 陶洪峰; 王瑞; 陶新悦
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-11-07
Anticipated expiration: 2043-02-03
Also published as: CN116048085A

Abstract

本发明公开了一种移动机器人的故障估计和容错迭代学习控制方法，涉及移动机器人容错控制技术领域，该方法基于提升技术，将执行重复任务的移动机器人控制系统转换为时间序列的输入输出矩阵模型，并在迭代学习控制的框架下，设计了基于Q‑learning的故障估计算法和容错迭代学习控制算法，故障估计算法为容错迭代学习控制算法提供故障信息，容错迭代学习控制算法基于范数优化迭代学习控制框架，每个批次通过使用实时故障信息校正控制器输入，并且通过压缩映射的方法，证明了所设计容错迭代学习控制算法的收敛性。该方法可以解决执行器故障下移动机器人控制系统的轨迹跟踪问题，从而实现对期望轨迹的有效跟踪。

Description

一种移动机器人的故障估计和容错迭代学习控制方法

技术领域

本发明涉及移动机器人容错控制技术领域，尤其是一种移动机器人的故障估计和容错迭代学习控制方法。

背景技术

作为集合智能感知、计算决策、运动控制等功能于一体的综合系统，移动机器人在勘探、排爆、安保、国防等方面有着广泛的应用场景。其中，轮式移动机器人是移动机器人的典型代表，具有移动灵活、高效率、轻量级的优势。

针对执行重复任务的移动机器人，结构简单、高性能的迭代学习控制能够提供良好的轨迹跟踪解决方案。一方面，由于复杂工况下的不确定性，重复任务系统很难保证系统参数不变化。另一方面，由于迭代学习控制对执行器的需求具有重复性，迭代学习控制对故障更加敏感，极易产生机械疲劳和损耗，需要更多的关注迭代学习控制框架下的执行器故障。因此，希望设计的迭代学习控制律具有一定的容错性能，使系统在执行器故障下尽可能跟踪上期望轨迹。

未知故障的存在给确定的系统动力学引入了不确定性，导致较差的控制性能。同时，故障的负面影响会逐渐累积，使得系统偏离预期的控制目标。因此，维持执行器故障下系统性能的关键是减小未知故障的影响，而故障估计可以直接重构故障信息，并为容错控制提供有力的支持。因此，希望设计的故障估计算法具有较好的估计性能，为容错迭代学习控制律提供有效的故障信息。

针对上述迭代学习框架下的执行器故障问题，故障估计和容错迭代学习控制方法应运而生。

发明内容

本发明人针对上述问题及技术需求，提出了一种移动机器人的故障估计和容错迭代学习控制方法，在迭代学习控制的框架下，提出了一个适合离散多输入多输出系统的故障估计和容错学习框架，引入Q-learning算法进行故障估计，通过估计的故障信息来辅助容错控制，从而提高执行器故障下系统的可靠性和性能。采用范数优化迭代学习控制框架设计容错迭代学习控制律，并根据压缩映射的方法，得到系统在执行器故障下的有界收敛条件。

本发明的技术方案如下：

一种移动机器人的故障估计和容错迭代学习控制方法，该方法包括：

确定双轮独立驱动的刚性移动机器人控制系统的动力学模型；对双轮独立驱动的刚性移动机器人控制系统进行解耦，并构建其离散状态空间方程；建立双轮独立驱动的刚性移动机器人控制系统的提升模型；建立执行器故障下双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型；设计执行器故障下的容错迭代学习控制轨迹跟踪算法；设计执行器故障下的基于Q-learning的故障估计算法；分析执行器故障下的容错迭代学习控制轨迹跟踪算法的收敛性；实现双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪。

本发明的有益技术效果是：

本申请公开了针对双轮独立驱动的刚性移动机器人控制系统此类具有重复运动特征的线性系统，将该移动机器人控制系统作为被控对象，针对执行器故障的情况，提出故障估计和容错迭代学习控制设计框架，并在该框架下设计可实现的容错迭代学习控制算法，进而在保证跟踪需求的同时提升系统的可靠性和性能。本算法基于范数优化迭代控制框架，设计了容错迭代学习控制算法，保证了系统跟踪误差的收敛性。

附图说明

图1是本申请提供的双轮独立驱动的刚性移动机器人控制系统原理框图。

图2是本申请提供的双轮独立驱动的刚性移动机器人控制系统实际物理模型图。

图3是本申请提供的移动机器人控制系统的线速度和方向角期望输出与实际输出曲线图。

图4是本申请提供的移动机器人控制系统的期望轨迹与实际跟踪轨迹。

图5是本申请提供的移动机器人控制系统的线速度和方向角的跟踪误差2-范数收敛图。

图6是本申请提供的移动机器人控制系统沿批次轴的故障估计误差2-范数图。

图7是本申请提供的移动机器人控制系统的故障估计值和实际值。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本实施例提供了一种移动机器人的故障估计和容错迭代学习控制方法，具体包括如下步骤：

第一步、确定双轮独立驱动的刚性移动机器人控制系统的动力学模型，包括：

双轮独立驱动的刚性移动机器人控制系统通过左右车轮的驱动电压来控制移动机器人的线速度和方向角，在固定平面上建立绝对坐标系，假设双轮独立驱动的刚性移动机器人在固定平面内移动，移动机器人的实际物理模型如式(1)所示：

其中，v为移动机器人的线速度，φ为移动机器人的方向角；u_r和u_l分别为移动机器人的右轮和左轮的驱动电压；c为粘性摩擦系数；M为移动机器人的质量；r为移动机器人的车轮半径；I_w为移动机器人的车轮的转动惯量；k_a为驱动增益因子；l为移动机器人的左轮或右轮到移动机器人重心的距离；I_v为围绕移动机器人中心的转动惯量。

第二步、对双轮独立驱动的刚性移动机器人控制系统进行解耦，并构建其离散状态空间模型，包括：

将移动机器人的线速度、方向角和方向角的导数定义为状态变量：将右轮和左轮的驱动电压定义为输入变量：u＝[u_r u_l]^T，将移动机器人的线速度和方向角定义为输出变量：y＝[v φ]^T，则式(1)所示的刚性移动机器人控制系统描述为：

其中：

由于双轮独立驱动的刚性移动机器人控制系统是一个线性多输入多输出的耦合系统，为使用线速度的驱动电压u_v和方向角的驱动电压u_φ直接控制移动机器人的线速度和角速度，使用下述式(3)对耦合系统进行解耦：

再对解耦后的系统进行离散化，选取满足香农采样定理的采样周期T_s，进一步得出双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型：

式中，t表示采样时刻，k表示批次，选取批次过程的运行周期为T，且在每个重复运行周期t∈[0,N]内，共有N个采样点；和/>分别表示双轮独立驱动的刚性移动机器人控制系统第k批次t采样时刻的对应维度的输入、输出和状态向量；A，B和C为式(2)中离散系统先解耦后离散化的系统参数矩阵，并且满足CB≠0；假设系统每个批次的初始状态保持一致，即x_k(0)＝x₀。

第三步、建立双轮独立驱动的刚性移动机器人控制系统的提升模型，包括：

针对式(4)表示的线性离散系统，将其离散状态空间模型转化为时间序列形式的提升模型：

y_k＝Gu_k+d (5)

其中：

d＝[(CA)^T,(CA²)^T,...,(CA^N)^T]^Tx₀

G是时间序列上的输入输出传递矩阵，d是系统初始状态的输出响应；输入Hilbert空间和输出Hilbert空间/>分别由如下的内积和相应的诱导范数定义：

其中，是输入Hilbert空间的向量，/>是输出Hilbert空间的向量，矩阵/>和/>分别为对应维数的对称正定权重矩阵。

定义期望输入和期望输出/>为：

并且根据式(5)所示的输入输出模型，期望输出表示为：

y_d＝Gu_d+d (10)

由此定义跟踪误差为：

e_k＝y_d-Gu_k-d (11)

第四步、建立执行器故障下双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型，包括：

定义执行器故障下的输入为：

并且，执行器故障下的输入由执行器故障系数表示为：

其中：

δ_k(t)＝diag{δ_1,k(t),δ_2,k(t),...,δ_m,k(t)} (14)

估计的执行器故障系数表示为：

执行器故障系数的下界和上界分别定义为：

δ＝diag{δ ₁,δ ₂,...,δ _m} (18)

并且上述执行器故障系数下界的最小值和上界的最大值分别定义为：

假设执行器故障系数的下界δ _i(0≤δ _i≤1)和上界是已知的，即故障执行器系数δ_i,k(t)在已知范围内变化；δ_i,k(t)＝0表示第i个执行器在第k批次t采样时刻完全故障；δ_i,k(t)＝1表示第i个执行器在第k批次t采样时刻正常工作；0<δ_i,k(t)<1表示第i个执行器在第k批次t采样时刻有剩余驱动力；δ_i,k(t)>1表示第i个执行器在第k批次t采样时刻有过量驱动力。

执行器故障下式(4)所示的离散状态空间模型表示为：

针对式(22)表示的执行器故障下的线性离散系统，将其离散状态空间模型转化为时间序列形式的提升模型：

y_k＝Gδ_ku_k+d (23)

其中：

进一步得出估计的执行器故障系数表示的执行器故障下的名义提升模型：

其中：

式(23)所示的执行器故障下提升模型的实际跟踪误差表示为：

e_k＝y_d-Gδ_ku_k-d (25)

式(24)所示的执行器故障下名义提升模型的数值跟踪误差表示为：

第五步、设计执行器故障下的容错迭代学习控制轨迹跟踪算法，包括：

考虑范数优化迭代学习控制框架，每批次优化一个性能指标函数，性能指标函数定义为：

其中，性能指标函数包括数值跟踪误差和控制振荡；Q和R分别为数值跟踪误差和控制振荡的对称正定权重矩阵，以表示性能指标函数考虑数值跟踪误差和控制振荡的优先级，即Q＝Q^T>0,R＝R^T>0。

由式(6)和式(7)得到跟踪误差及控制振荡的诱导范数：

将式(26)，式(28)和式(29)代入式(27)，对u_k+1求二次型最优解，得到：

由于正定，故其可逆。并且为改进本步骤设计算法的鲁棒性，将名义提升模型的数值跟踪误差/>替换成测量所得的实际跟踪误差e_k，从而引入真实故障信息。因此，得到迭代学习更新律：

其中，和/>分别为第k批次的输入项学习增益和误差项学习增益：

综上，当给定双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型的初始输入u₀，初始状态x₀，参考轨迹y_d，选定加权矩阵Q和R，其中该系统的离散状态空间模型为线性离散时不变系统，一种执行器故障下的容错迭代学习控制轨迹跟踪算法设计如下：

步骤5.1：对式(4)运行u₀以获得y₀；记录测量所得e₀并通过式(31)的迭代学习更新律得出u₁；

步骤5.2：根据第六步设计的执行器故障下的基于Q-learning的故障估计算法，计算重复该步骤直至采样次数达到N，输出最新的/>

步骤5.3：使用u_k和e_k，通过式(31)的迭代学习更新律得出u_k+1；

步骤5.4：运行u_k+1测量得到下一批次的输出y_k+1和跟踪误差e_k+1；

步骤5.5：重新执行步骤5.2，直至误差精度小于等于设定值，则算法结束。

第六步、设计执行器故障下的基于Q-learning的故障估计算法，包括：

考虑强化学习中的Q-learning算法，在每一批次每一时刻，估计一次故障信息，为式(31)所示的迭代学习更新律提供估计故障信息。Q-learning算法涉及的主要对象包括：智能体为故障估计器；环境为移动机器人控制系统；状态空间为其中每一个状态动作空间为/>其中每一个动作

执行器故障下的故障估计算法的基本思想如下：

状态转移公式为：

采取∈-贪心策略作为动作选择策略π(s)：

其中，Q(s,a)为动作价值函数，∈为贪心概率，p为动作选择概率。

动作价值函数的更新式为：

其中，α为学习率，γ为折扣因子，为在状态s下执行动作a从而转移到状态s'时获得的奖赏。

为准确进行故障估计，定义下述损失方程为：

进一步定义奖赏为：

其中，是一个与状态数量有关的常数，/>是关于故障估计精度的损失方程阈值。

综上，当给定学习率α，折扣因子γ，贪心概率∈，损失方程阈值状态x_k和输入u_k，一种执行器故障下的基于Q-learning的故障估计算法设计如下：

步骤6.1：初始化动作价值函数Q(s,a)和初始状态s₀；

步骤6.2：通过∈-贪心策略选择初始状态s₀的初始动作a₀；

步骤6.3：通过式(36)更新动作价值函数Q(s,a)；

步骤6.4：执行当前动作a，将当前状态转移至下一个状态s'，并获得相应的奖赏

步骤6.5：通过∈-贪心策略选择下一个状态s'的动作a'，之后s更新为s'，a更新为a'；

步骤6.6：重新执行步骤6.3，直至则算法结束，最终更新的s'即为估计的执行器故障系数/>

第七步、分析执行器故障下的容错迭代学习控制轨迹跟踪算法的收敛性，包括：

根据式(10)和式(25)，第k批次的跟踪误差表示为：

定义输入误差Δu_k为：

Δu_k＝u_d-δ_ku_k (40)

则将式(39)改写为：

e_k＝GΔu_k (41)

根据式(40)和迭代学习更新律式(31)，得到第k+1批次的输入误差：

其中，为对角阵δ_k的伪逆。

对式(42)两边取范数，得到：

接下来，证明存在上界的方法包括：

根据范数的相容性和三角不等式，得到下式：

由于δ_k、均为对角阵，根据式(20)和式(21)得到δ_k，/>和/>

根据式(32)，得到：

由于R^-1，G和Q均为正定，得到/>因此根据式(45)，将式(46)改写为：

将式(47)代入式(44)，得到：

定义正标量b为：

则根据式(49)，式(43)表示为：

定义b_u＝bu_d，则系统迭代k批次后，得到：

若选择的对称正定权重矩阵Q和R使得下述约束条件成立：

其中，ρ为满足式(52)的常数。

则根据压缩映射引理，得到当k→∞时，式(51)表示为：

根据式(41)和式(53)，得到：

定义c_G＝||G||，得到：

由此证得误差范数||e_k+1||可以收敛至一个有界值。

第八步、实现双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪，包括：

根据容错迭代学习更新律确定刚性移动机器人控制系统每一迭代批次的输入矢量，利用得到的输入矢量对移动机器人控制系统进行轨迹跟踪控制，在发生执行器故障时，移动机器人在输入矢量的作用下追踪对应期望输出。

请参考图1，其示出了本申请提供的双轮独立驱动的刚性移动机器人控制系统原理框图。第k批次的迭代学习控制器生成的输入信号为u_k，将其作用于移动机器人控制系统得到第k批次的输出信号y_k。将y_k与存储在期望轨迹存储器中的期望输出信号y_d进行比较得到跟踪误差e_k。接下来将跟踪误差e_k与误差精度的设定值作比较，若e_k没有达到误差精度的设定值，则进行下一次迭代，先将测量状态x_k和u_k传递到Q-learning故障估计器得到估计的执行器故障系数再将估计的执行器故障系数/>跟踪误差e_k和输入信号u_k传递给范数优化迭代学习控制器，从而生成下一批次的输入信号u_k+1，如此循环，直至误差精度小于误差精度的设定值，则停止算法，此时控制器输入即为最优输入信号。

在本实施例中，针对图2和式(1)所示的双轮独立驱动的刚性移动机器人控制系统的实际物理模型，变量参数分别设定为：

c＝0.05kgm²/s，M＝200kg，r＝0.1m，

I_w＝0.005kgm²，k_a＝5，

l＝0.3m，I_v＝10kgm²。

控制系统的运行周期设定为T＝2s，采样时刻设定为t＝0.05s，则控制系统的离散状态空间模型的参数矩阵分别为：

在移动机器人控制系统运行过程中，需要系统跟踪某一特定轨迹，因此，本实施方式分别设定移动机器人的期望线速度和期望方向角为：

v_d＝2m/s，φ_d＝πt rad。

令初始状态满足x_k(0)＝x₀＝[0 0 0]^T。

考虑执行器故障系数：

其中：

δ_1,k＝0.15sin(πk/10-π/2)+0.7，

δ_2,k(t)＝0.1sin(πk/8-π/2)+0.75+0.1sin(2πt),t∈[0,N-1]，

并且执行器故障系数中元素有上下界：

选取对称正定权重矩阵Q＝I，R＝0.001I，初始输入为u₀＝0。选取学习率α＝0.1，折扣因子γ＝1，贪心概率∈＝0.1，损失方程阈值对称正定权重矩阵Q和R确定，再由故障估计算法得出估计的执行器故障因子/>容错迭代学习律中的/>和/>也随之确定。本申请的容错迭代学习控制器通过STM32F103RCT6芯片实现，芯片的输入为移动机器人的电机驱动电压u和状态信号x，并通过电压传感器、速度传感器与位置传感器采集得到。第k批次的输入信号u_k和状态信号x_k通过调理电路，进入STM32F103RCT6芯片进行存储与计算，首先CPU计算估计出执行器故障因子/>再构建容错迭代学习控制律，计算后得到第k+1批次的控制输入信号u_k+1，输入信号再经过RS232通信模块作用到移动机器人控制系统，通过不断修正输出轨迹，来跟踪上期望轨迹目标。移动机器人控制系统的动态模型(1)运行时，请参考图3和图4，其分别示出了移动机器人控制系统应用容错迭代学习更新律(31)时线速度和方向角的轨迹跟踪图与移动机器人控制系统的实际轨迹跟踪图，运行一定的批次k后，系统的输出在执行器故障下能相对准确的跟踪上目标轨迹。图5示出了移动机器人控制系统线速度和方向角的跟踪误差的2-范数，随着迭代批次的增加，会逐步收敛，这验证了本申请所设计的容错迭代学习控制算法的合理性及有效性。

图6示出了执行器故障系数的估计误差2-范数，基于Q-learning的故障估计算法有稳定的估计性能，说明了本申请所设计的故障估计算法的有效性。图7示出了执行器故障系数的估计值与实际值，可以看出由于时间因果关系，执行器故障系数的估计值始终延迟实际值一个批次，这也导致了图6的执行器故障系数的估计误差。

本申请提出的针对执行器故障的故障估计与容错迭代学习控制算法，故障估计算法基于Q-learning算法，Q-learning算法提供了一种在未知环境下不需要大量先验数据就可以进行学习的可行方法，为容错迭代学习控制算法提供故障信息，容错迭代学习控制算法基于范数优化迭代学习控制框架，每个批次通过使用实时故障信息校正控制器输入，从而达到提升系统可靠性与性能的目的。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种移动机器人的故障估计和容错迭代学习控制方法，其特征在于，所述方法包括：

所述双轮独立驱动的刚性移动机器人控制系统通过左右车轮的驱动电压来控制移动机器人的线速度和方向角，在固定平面上建立绝对坐标系，假设所述双轮独立驱动的刚性移动机器人在所述固定平面内移动，移动机器人的实际物理模型如式(1)所示：

其中，v为移动机器人的线速度，φ为移动机器人的方向角；u_r和u_l分别为移动机器人的右轮和左轮的驱动电压；c为粘性摩擦系数；M为移动机器人的质量；r为移动机器人的车轮半径；I_w为移动机器人的车轮的转动惯量；k_a为驱动增益因子；l为移动机器人的左轮或右轮到移动机器人重心的距离；I_v为围绕移动机器人中心的转动惯量；

第二步、对所述双轮独立驱动的刚性移动机器人控制系统进行解耦，并构建其离散状态空间模型，包括：

其中：

由于所述双轮独立驱动的刚性移动机器人控制系统是一个线性多输入多输出的耦合系统，为使用线速度的驱动电压u_v和方向角的驱动电压u_φ直接控制所述移动机器人的线速度和角速度，使用下述式(3)对所述耦合系统进行解耦：

再对解耦后的系统进行离散化，选取满足香农采样定理的采样周期T_s，进一步得出所述双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型：

式中，t表示采样时刻，k表示批次，选取批次过程的运行周期为T，且在每个重复运行周期t∈[0,N]内，共有N个采样点；和/>分别表示所述双轮独立驱动的刚性移动机器人控制系统第k批次t采样时刻的对应维度的输入、输出和状态向量；A，B和C为式(2)中离散系统先解耦后离散化的系统参数矩阵，并且满足CB≠0；假设系统每个批次的初始状态保持一致，即x_k(0)＝x₀；

第三步、建立所述双轮独立驱动的刚性移动机器人控制系统的提升模型，包括：

y_k＝Gu_k+d (5)

其中：

d＝[(CA)^T,(CA²)^T,...,(CA^N)^T]^Tx₀

其中，是输入Hilbert空间的向量，/>是输出Hilbert空间的向量，矩阵/>和/>分别为对应维数的对称正定权重矩阵；

定义期望输入和期望输出/>为：

并且根据式(5)所示的输入输出模型，期望输出表示为：

y_d＝Gu_d+d (10)

由此定义跟踪误差为：

e_k＝y_d-Gu_k-d (11)

第四步、建立执行器故障下所述双轮独立驱动的刚性移动机器人控制系统的提升模型和名义提升模型，包括：

定义执行器故障下的输入为：

并且，执行器故障下的输入由执行器故障系数表示为：

其中：

δ_k(t)＝diag{δ_1,k(t),δ_2,k(t),...,δ_m,k(t)} (14)

估计的执行器故障系数表示为：

执行器故障系数的下界和上界分别定义为：

δ＝diag{δ ₁,δ ₂,...,δ _m} (18)

并且执行器故障系数下界的最小值和上界的最大值分别定义为：

假设执行器故障系数的下界δ _i(0≤δ _i≤1)和上界是已知的，即故障执行器系数δ_i,k(t)在已知范围内变化；δ_i,k(t)＝0表示第i个执行器在第k批次t采样时刻完全故障；δ_i,k(t)＝1表示第i个执行器在第k批次t采样时刻正常工作；0<δ_i,k(t)<1表示第i个执行器在第k批次t采样时刻有剩余驱动力；δ_i,k(t)>1表示第i个执行器在第k批次t采样时刻有过量驱动力；

执行器故障下式(4)所示的离散状态空间模型表示为：

y_k＝Gδ_ku_k+d (23)

其中：

式(23)所示的执行器故障下提升模型的实际跟踪误差表示为：

e_k＝y_d-Gδ_ku_k-d (25)

考虑范数优化迭代学习控制框架，每批次优化一个性能指标函数，所述性能指标函数定义为：

其中，所述性能指标函数包括数值跟踪误差和控制振荡；Q和R分别为数值跟踪误差和控制振荡的对称正定权重矩阵，以表示性能指标函数考虑数值跟踪误差和控制振荡的优先级，即Q＝Q^T>0,R＝R^T>0；

由式(6)和式(7)得到跟踪误差及控制振荡的诱导范数：

由于正定，故其可逆；并且为改进本步骤设计算法的鲁棒性，将名义提升模型的数值跟踪误差/>替换成测量所得的实际跟踪误差e_k，从而引入真实故障信息；因此，得到迭代学习更新律：

当给定所述双轮独立驱动的刚性移动机器人控制系统的离散状态空间模型的初始输入u₀，初始状态x₀，参考轨迹y_d，选定加权矩阵Q和R，一种执行器故障下的容错迭代学习控制轨迹跟踪算法设计如下：

步骤5.1：对式(4)运行u₀以获得y₀；记录测量所得的e₀并通过式(31)的迭代学习更新律得出u₁；

步骤5.5：重新执行步骤5.2，直至误差精度小于等于设定值，则算法结束；

考虑强化学习中的Q-learning算法，在每一批次每一时刻，估计一次故障信息，为式(31)所示的迭代学习更新律提供估计故障信息；所述Q-learning算法涉及的主要对象包括：智能体为故障估计器；环境为所述移动机器人控制系统；状态空间为其中每一个状态/>动作空间为/>其中每一个动作

执行器故障下的故障估计算法的基本思想如下：

状态转移公式为：

采取∈-贪心策略作为动作选择策略π(s)：

其中，Q(s,a)为动作价值函数，∈为贪心概率，p为动作选择概率；

动作价值函数的更新式为：

其中，α为学习率，γ为折扣因子，为在状态s下执行动作a从而转移到状态s'时获得的奖赏；

为准确进行故障估计，定义下述损失方程为：

进一步定义奖赏为：

其中，是一个与状态数量有关的常数，/>是关于故障估计精度的损失方程阈值；

当给定学习率α，折扣因子γ，贪心概率∈，损失方程阈值状态x_k和输入u_k，一种执行器故障下的基于Q-learning的故障估计算法设计如下：

步骤6.1：初始化动作价值函数Q(s,a)和初始状态s₀；

步骤6.2：通过∈-贪心策略选择初始状态s₀的初始动作a₀；

步骤6.3：通过式(36)更新动作价值函数Q(s,a)；

根据式(10)和式(25)，第k批次的跟踪误差表示为：

定义输入误差Δu_k为：

Δu_k＝u_d-δ_ku_k (40)

则将式(39)改写为：

e_k＝GΔu_k (41)

其中，为对角阵δ_k的伪逆；

对式(42)两边取范数，得到：

证明存在上界的方法包括：

根据范数的相容性和三角不等式，得到下式：

由于δ_k、均为对角阵，根据式(20)和式(21)得到||δ_k||，/>和/>的上界为：

根据式(32)，得到：

将式(47)代入式(44)，得到：

定义正标量b为：

则根据式(49)，式(43)表示为：

定义b_u＝b||u_d||；则系统迭代k批次后，得到：

若选择的对称正定权重矩阵Q和R使得下述约束条件成立：

其中，ρ为满足式(52)的常数；

则根据压缩映射引理，得到当k→∞时，式(51)表示为：

根据式(41)和式(53)，得到：

定义c_G＝||G||，得到：

证得误差范数||e_k+1||收敛至一个有界值；

第八步、实现所述双轮独立驱动的刚性移动机器人控制系统在执行器故障下的轨迹跟踪，包括：

根据迭代学习更新律确定所述刚性移动机器人控制系统每一迭代批次的输入矢量，利用得到的输入矢量对移动机器人控制系统进行轨迹跟踪控制，在发生执行器故障时，移动机器人在输入矢量的作用下追踪对应期望输出。