CN114083543A

CN114083543A - 一种空间机械臂主动故障诊断方法

Info

Publication number: CN114083543A
Application number: CN202111586210.XA
Authority: CN
Inventors: 徐峰; 颜子琛; 梁斌; 刘厚德; 王学谦
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-02-25
Anticipated expiration: 2041-12-22
Also published as: CN114083543B

Abstract

一种空间机械臂主动故障诊断方法，通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架；其中，对于建模的空间机械臂系统的输入引入约束强化学习算法，使得所述输入能够在保障容错控制(FTC)性能的前提下，最大化各故障模态的输出差异度，实现故障分离；以及，在主动输入的激励下，通过数据驱动框架下的基于最大均值差异指标的故障隔离方法，根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。本方法可同时兼顾主动故障诊断和容错控制性能两类目标，以一种安全的方式对系统进行故障诊断，并且能够有效克服建模困难，模型不确定影响和计算复杂度高等问题。

Description

一种空间机械臂主动故障诊断方法

技术领域

本发明涉及故障诊断领域，特别是涉及一种空间机械臂主动故障诊断方法。

背景技术

随着社会经济的发展和科学技术的进步，现代控制系统呈现出智能化和复杂化的趋势。而在系统运作时，故障的发生不可避免，如不进行及时处理则将导致财产损失和人员伤亡。因此，故障诊断技术是提高系统安全性、可靠性和降低事故风险的关键技术。

现有故障诊断方法绝大多数是在“被动”框架下进行的，即仅利用系统的输入输出数据生成用于指示故障的残差信号，没有对系统施加额外的输入信号，从而不对系统的演化规律产生影响。此类故障诊断方法可称为被动故障诊断方法。然而，系统的不确定性(如外部干扰和测量噪声)和自适应控制措施可能会削弱故障造成的影响，从而阻碍可靠的故障诊断。相比之下，主动故障诊断(AFD)通过设计辅助输入的方式激励系统，来增强故障的表现特征，提高其可检测性和诊断能力。AFD方法可分为两步：1、主动输入设计，设计的目的是最大化故障模态输出的差异程度；2、故障隔离方法设计，用于辨别当前系统的故障模态，排除错误模态来确定最后的正确模态。

目前，主动故障诊断方法主要在基于模型的方法框架下展开研究，已有许多学者在基于模型的AFD研究中取得了进展，并拓展至各类复杂系统上。然而在实际应用中，此类方法过度依赖于系统精确的动力学模型，且存在计算复杂度高、系统不确定性建模困难等问题，使得现有的AFD方法应用受限。

现有技术的缺点主要有：

1.已有的基于模型的AFD方法中，存在对精确模型以及不确定性因素的建模困难问题；

2.已有方法大多通过优化求解最优输入，计算复杂度过高导致方法不满足实时性，难以应用且计算成本过高；

3.已有的AFD方法缺乏对诊断期间容错性能的考虑，主动输入可能使得系统受损，或无法有效权衡AFD和FTC这两个优化目标在优化问题中的比重。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种空间机械臂主动故障诊断方法。

为实现上述目的，本发明采用以下技术方案：

一种空间机械臂主动故障诊断方法，通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架；其中，对于建模的空间机械臂系统的输入引入约束强化学习算法，使得所述输入能够在保障容错控制(FTC)性能的前提下，最大化各故障模态的输出差异度，实现故障分离；以及，在主动输入的激励下，通过数据驱动框架下的基于最大均值差异指标的故障隔离方法，根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。

优选地，在得到故障信息后，对系统进行容错控制。

优选地，所述空间机械臂为二连杆空间机械臂。

优选地，所述空间机械臂系统按照如下的方法建模：

在自由漂浮运行条件下，即零初始动量和无外力条件下，空间机械臂的整体质心被设置在惯性坐标系Σ_I的原点处；基座，连杆1和连杆2的长度分别为a，l₂和l₃对应的质量为m₁，m₂和m₃；θ₁表示基座在坐标系Σ₀下的旋转角度，θ₂和θ₃分别表示连杆一和连杆二绕z轴的旋转角度；

二两杆空间机械臂的动力学方程表示为：

其中m∈R^3×3为正定惯性矩阵，h∈R^3×1包含了非线性科里奥利力和离心力项，q＝[θ₁θ₂θ₃]^T和τ＝[τ₁τ₂τ₃]^T分别表示关节位置和关节力矩向量；

其中

令

并考虑系统随机扰动w，测量噪声v和执行器故障矩阵G，得到离散时间增广形式的系统动力学方程：

其中

Δt表示采样间隔；系统(12)对应的参考系统为

式(12)和式(13)作为后续验证AFD方法的系统模型。

优选地，包括针对主动故障诊断和容错控制的双目标优化的优化问题建模，其中：

给定一类受执行器故障影响的离散非线性随机系统：

其中

和

分别表示系统在k时刻的状态，输出和输入；

和

表示独立的高斯噪声；上标i表示一共n_f个故障模态，不同故障模态具有不同的

Gⁱ矩阵第j个对角元

用于模拟执行器性能损失，无故障模态F⁰下G⁰＝I，所有模态集合定义为

对应的参考系统为：

其中

为独立的的有界参考输入；所有系统的初始状态x₀是一致的，且服从高斯分布，每个模态拥有各自的迭代变量x_k和y_k；除参考系统外，其余系统共享输入u_k；

兼顾容错控制性能的主动故障诊断问题描述为：

发生故障后，在故障诊断期间，设计输入u_k∈U使得各故障模态Fⁱ(i∈I)的输出分布尽可能分离；与此同时，当前系统的输出y_k应跟踪参考信号y_kref；确定双目标优化问题：

其中β为人为设定的超参数；将式(16)转化为一个约束优化问题

其阈值β表示跟踪误差的上界，求解问题(17)。

优选地，所述约束强化学习算法包括：

在约束马尔可夫决策过程中，智能体从环境交互中得到奖励r，还得到惩罚cost；惩罚函数I_c定义为：

即当跟踪误差超出阈值范围时，惩罚值cost将从0变为1；令

表示惩罚回报的期望，则约束策略优化问题为：

其中

所述约束强化学习算法基于actor-critic架构，actor即策略网络π_θ(a_k|s_k)，critic为价值网络V_w(s_k)和V_φ(s_k)，分别用来拟合状态s_k的价值V_π(s_k)和惩罚回报

策略优化即优化网络参数θ,w,φ；

在网络训练前，智能体将与环境交互并将历史数据存入记忆库

中，计算奖励回报R_k和惩罚回报

的真实值作为训练目标；在一次策略优化后，记忆库将清空，每次优化只使用最新策略的交互数据。

优选地，所述约束强化学习算法进一步包括：

Critic网络更新规则：

根据价值网络的定义，价值网络的损失函数定义为真实值和预测值之间的均方误差，即：

期望值用记忆库中的批量数据进行近似，网络参数w和φ用批量随机梯度下降算法进行更新：

Actor网络更新规则：

参数θ的更新即求解优化问题(19)，该约束问题表示为

令目标函数的梯度

为g，惩罚约束项的梯度

为b，定义变量

式(22)的线性近似为：

Fisher信息矩阵F(θ_k)为半正定矩阵，该问题为凸优化问题，利用对偶问题进行求解，式(23)的拉格朗日函数为：

其中ν和λ为拉格朗日乘子，x＝θ-θ_k，F(θ_k)被简写为F；如果该问题可行，最优x^*满足：

对偶问题表示为：

其中，p＝g^TF^-1g，q＝g^TF^-1b，s＝b^TF^-1b；对式(26)求导可得最优的ν^*

根据式(26)v^*计算得到最优的λ^*；

不可行问题下的恢复策略：

在不满足约束情况下，策略优化的目标变成最小化期望惩罚，即：

其更新方式为：

优选地，空间机械臂的主动故障诊断策略包括：

主动输入设计：

当执行器故障发生时，矩阵G从单位矩阵变成未知的Gⁱ，主动输入使各故障模态输出之间的距离最大化，同时当前系统输出y_k尽可能跟踪参考输出

输入设计问题由CRL算法进行求解，强化学习中的状态s设计为

其中x，y分别表示各个系统的状态和输出；动作a设计为a＝u，即关节输入力矩；

故障隔离方法设计：

在数据驱动框架下，基于MMD指标衡量不同系统输出轨迹的相似度，从而实现故障隔离；给定两个数据集X:＝{x₁,…,x_m}和Y:＝{y₁,…,y_m}，分别服从独立同分布p和q，其平方MMD的计算公式为：

MMD²[H,p,q]＝E_x,x′[k(x,x′)]-2E_x,y[k(x,y)]+E_y,y′[k(y,y′)] (31)

其中k(x,x′)＝<h(x),h(x′)>表示核函数，使用高斯核函数对向量化后的轨迹进行计算，即

其中函数φ_N(·)表示将所有状态-动作对历史数据叠加成增广向量的形式；当分布p＝q时，MMD²[H,p,q]＝0，MMD值越大说明两个分布相差越大；

根据MMD指标，利用输出数据衡量两个系统之间的相似程度，从而实现故障隔离；

对状态s进行调整：

其中，标志位tⁱ对应第i个故障模态Fⁱ，当Fⁱ被排除，tⁱ将从1变为0，表示故障模态Fⁱ将不会在后续的优化算法中被考虑；相应的奖励函数设计为：

从而，强化学习策略关注于分离未被排除的故障模态间的输出分布。

一种计算机可读存储介质，其存储的计算机程序由处理器运行时，实现所述的空间机械臂主动故障诊断方法。

本发明具有如下有益效果：

本发明提供一种空间机械臂主动故障诊断方法，其中从数据的角度出发，设计了一种基于数据的主动故障诊断方法框架。同时，考虑主动故障诊断期间辅助输入对系统的损害性，引入约束强化学习算法进行输入设计，使得输入能够在保障容错控制(FTC)性能的前提下，最大化各故障模态的输出差异度，实现故障分离。此外，设计了一种数据驱动框架下的故障隔离方法，即通过分析系统的输入输出信号判断当前系统属于哪种故障模态。本发明的方法在二连杆空间机械臂上进行了算法验证。由于空间机械臂系统具有高耦合，非线性等特点，现有的主动故障诊断方法难以在该系统上进行应用，而本发明在实验中证明了其能够克服这些困难，并以一种安全的方式实现故障诊断。

与传统技术相比，本发明实施例的优势主要体现在如下方面：

1、利用本发明提出的主动故障诊断方法，可以在数据框架下，实现空间机械臂执行器故障诊断，确定系统的故障模态类型；

2、利用本发明提出的主动故障诊断方法，能够有效克服建模困难，模型不确定影响和计算复杂度高等问题，相比现有的基于模型的方法具有更广泛的应用前景；

3、利用本发明提出的方法，可同时兼顾主动故障诊断和容错控制性能两类目标，以一种安全的方式对系统进行故障诊断。

附图说明

图1为本发明一种实施例的平面二连杆空间机械臂示意图。

图2为本发明一种实施例的强化学习训练曲线图，其中(a)每回合回报曲线图，(b)每回合惩罚曲线图。

图3为本发明一种实施例的AFD期间各系统输出轨迹。

图4为本发明一种实施例的轨迹跟踪效果曲线图，其中(a)关节1速度跟踪曲线图，(b)关节2速度跟踪曲线图。

图5为本发明一种实施例的AFD期间MMD变化曲线图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

涉及的术语：

AFD:Active Fault Diagnosis(主动故障诊断)，

FTC：Fault-tolerant Control(容错控制)，

CRL:Constrained Reinforcement Learning(约束强化学习)，

MMD:Maximum Mean Discrepancy(最大均值差异)。

本发明实施例提供一种空间机械臂主动故障诊断方法，通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架；其中，对于建模的空间机械臂系统的输入引入约束强化学习算法，使得所述输入能够在保障容错控制(FTC)性能的前提下，最大化各故障模态的输出差异度，实现故障分离；以及，在主动输入的激励下，通过数据驱动框架下的基于最大均值差异指标的故障隔离方法，根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。

以下详细描述本发明的具体实施例。

强化学习基础

步骤1：强化学习符号说明：

随机策略π(a_k|s_k)表示在状态s_k下选择动作a_k的概率，该策略对应的回报R_k，即累计折扣奖励，被定义为：

其中，r表示瞬时奖励，用于衡量当前动作的价值，γ∈(0,1)表示时间折扣因子。最优策略的含义为能够最大化期望回报

其中，τ＝(s₀,a₀,…,s_k,a_k)表示策略π指导下的状态-行为轨迹。此外，状态-行为值函数Q_π，价值函数V_π和优势函数A_π的定义如下：

V_π(s_k)表示策略π下状态s_k的期望回报，Q_π(s_k,a_k)表示在状态s_k下执行动作a_k的期望回报，A_π(s_k,a_k)表示状态s_k下执行动作a_k相较于其他动作的优势值函数。通常随机策略π由神经网络表示，θ表示网络参数，则最优的参数化策略

可写作

步骤2：策略优化方法：

为了保障策略更新的单调提升，首先列出两个不同策略

和

的性能差异表达式

其中，

表示折扣未来状态分布。只要等式(5)右侧保持非负，则更新后的策略

将优于

，因此置信域策略优化方法提出了以下策略更新方式：

由于

在策略更新时不可得，这里运用重要性采样技巧，同时

被用

近似。为了保证近似误差，策略更新的幅度被用Kullback-Leibler(KL)距离进行了限制，δ表示设定阈值。当新策略

和旧策略

足够接近时，优化目标和KL距离可分别用一阶和二阶泰勒展开在θ＝θ_k处进行近似，近似后的问题被表示为：

其中，

Δθ＝θ-θ_k。

表示Fisher信息矩阵。令

式(7)的解可由Karush-Kuhn-Tucker(KKT)条件求得：

为了保证简化问题的解是原问题的可行解，应用了回溯线搜索方法，α为搜索步长，i表示搜索步数。

空间机械臂建模

二连杆空间机械臂的原理图如图1所示。在自由漂浮运行条件下，即零初始动量和无外力条件下，空间机械臂的整体质心被设置在惯性坐标系Σ_I的原点处。基座，连杆1和连杆2的长度分别为a，l₂和l₃，它们对应的质量为m₁，m₂和m₃。θ₁表示基座在坐标系Σ₀下的旋转角度，θ₂和θ₃分别表示连杆一和连杆二绕z轴的旋转角度。

根据欧拉-拉格朗日定理，二两杆空间机械臂的动力学方程可以表示为：

其中m∈R^3×3为正定惯性矩阵，h∈R^3×1包含了非线性科里奥利力和离心力项，q＝[θ₁θ₂θ₃]^T和τ＝[τ₁τ₂τ₃]^T分别表示关节位置和关节力矩向量。

在自由漂浮条件下，基座力矩τ₁＝0，并根据动量守恒原理，

可以用包含

和

的函数进行替代，即

因此通过消除τ₁和

可对式(9)进行简化，可得

其中

令

并考虑系统随机扰动w，测量噪声v和执行器故障矩阵G，可得离散时间增广形式的系统动力学方程：

其中

Δt表示采样间隔。系统(12)对应的参考系统可表示为

式(12)和式(13)将作为后续验证AFD方法的系统模型。

优化问题建模

给定一类受执行器故障影响的离散非线性随机系统：

其中

和

分别表示系统在k时刻的状态，输出和输入。

和

表示独立的高斯噪声。上标i表示一共n_f个故障模态，不同故障模态由不同的

来刻画，Gⁱ矩阵第j个对角元

用于模拟执行器性能损失，无故障模态F⁰下G⁰＝I，因此所有模态集合定义为

对应的参考系统为：

其中

为独立的的有界参考输入。所有系统的初始状态x₀是一致的，且服从高斯分布，但由于每个系统模态具有不同的G，因此每个模态拥有各自的迭代变量x_k和y_k。除参考系统外，其余系统共享输入u_k。

针对上述系统，兼顾容错控制性能的主动故障诊断问题可描述为：

发生故障后，在故障诊断期间，设计输入u_k∈U使得各故障模态Fⁱ(i∈I)的输出分布尽可能分离。与此同时，当前系统的输出y_k应跟踪参考信号

这是一个双目标优化问题：

由于β为人为设定的超参数，给优化问题的求解带来了不确定性，因此本发明中将式(16)转化为一个约束优化问题

在这种设置下，阈值β表示跟踪误差的上界，其大小可根据应用需求来直观的设计。问题(17)的求解将在下一节叙述。

约束强化学习算法

在约束马尔可夫决策过程中，智能体不仅从环境交互中得到奖励r，还得到惩罚cost。在本发明中，惩罚函数I_c定义为：

即当跟踪误差超出阈值范围时，惩罚值cost将从0变为1。令

表示惩罚回报的期望，则约束策略优化问题可以写作：

其中

CRL算法基于演员-评论家(Actor-Critic)架构，actor即策略网络π_θ(a_k|s_k)，critic为价值网络V_w(s_k)和V_φ(s_k)，分别用来拟合状态s_k的价值V_π(s_k)和惩罚回报

。策略优化即优化网络参数θ,w,φ。

由于该算法属于on-policy算法，在网络训练前，智能体将与环境交互并将历史数据存入记忆库

中，计算奖励回报R_k和惩罚回报

的真实值作为训练目标。在一次策略优化后，记忆库将清空，每次优化只使用最新策略的交互数据。

步骤1：Critic网络更新规则：

根据价值网络的定义，价值网络的损失函数可定义为真实值和预测值之间的均方误差，即：

期望值可用记忆库中的批量数据进行近似，网络参数w和φ可用批量随机梯度下降算法进行更新：

步骤2：Actor网络更新规则：

参数θ的更新即求解优化问题(19)，根据式(5)和式(6)，该约束问题可表示为

对于神经网络这样的高维参数空间，直接求解式(22)计算复杂度过大，因此对其在

处进行近似化。令目标函数的梯度

为g，惩罚约束项的梯度

为b，定义变量

式(22)的线性近似为：

由于Fisher信息矩阵F(θ_k)为半正定矩阵，该问题为凸优化问题，可利用对偶问题进行求解。式(23)的拉格朗日函数可写做：

其中ν和λ为拉格朗日乘子，x＝θ-θ_k，F(θ_k)被简写为F。如果该问题可行，最优x^*满足：

对偶问题可表示为：

其中，p＝g^TF^-1g，q＝g^TF^-1b，s＝b^TF^-1b。对式(26)求导可得最优的ν^*

将ν^*代入原式(26)可计算得到最优的λ^*。

步骤3：不可行问题下的恢复策略：

在上述优化问题求解中，求得最优的ν^*和λ^*便可根据式(25)进行行为策略优化，但由于存在近似误差和初始误差，策略优化可能朝错误的方向进行从而使得问题不可行。对此，在不满足约束情况下，策略优化的目标变成最小化期望惩罚，即：

其更新方式为：

整体算法流程如表1所示。

表1.约束策略优化算法

空间机械臂的主动故障诊断策略设计

主动故障诊断策略可分为两步：主动输入设计和故障隔离方法设计。

步骤1：主动输入设计：

当执行器故障发生时，矩阵G从单位矩阵变成未知的Gⁱ，主动输入的目的是最大化各故障模态输出之间的距离，同时当前系统输出y_k应尽可能跟踪参考输出

。输入设计问题可由CRL算法进行求解，强化学习中的状态s设计为

其中x，y分别表示各个系统的状态和输出。动作a设计为a＝u，即关节输入力矩。

步骤2：故障隔离方法设计；

故障隔离的目的是排除不匹配的故障模态，从而确定当前系统处于何种故障模态。在数据驱动框架下，本发明基于MMD指标衡量不同系统输出轨迹的相似度，从而实现故障隔离。给定两个数据集X:＝{x₁,…,x_m}和Y:＝{y₁,…,y_m}，分别服从独立同分布p和q，其平方MMD的计算公式为：

MMD²[H,p,q]＝E_x,x′[k(x,x′)]-2E_x,y[k(x,y)]+E_y,y′[k(y,y′)] (31)

其中k(x,x′)＝<h(x),h(x′)>表示核函数，本发明中使用高斯核函数对向量化后的轨迹进行计算，即

其中函数φ_N(·)表示将所有状态-动作对历史数据叠加成增广向量的形式。当分布p＝q时，MMD²[H,p,q]＝0，MMD值越大说明两个分布相差越大。

根据MMD指标可利用输出数据衡量两个系统之间的相似程度，从而实现故障隔离。为了将逐步排除故障模态这一思路融入强化学习策略中，需对状态s进行调整，即修改式(30)：

其中，标志位tⁱ对应第i个故障模态Fⁱ，当Fⁱ被排除，tⁱ将从1变为0，表示故障模态Fⁱ将不会在后续的优化算法中被考虑。相应的奖励函数设计为：

这意味着强化学习策略会关注于分离未被排除的故障模态间的输出分布。完整的基于CRL的主动故障诊断策略如表2所示。

表2.基于CRL的主动故障诊断策略

1.3.2.6仿真验证

为了验证算法的有效性，本发明在平面二连杆空间机械臂上进行了仿真实验。

步骤1：具体参数设置：

空间机械臂的具体参数如表3所示。

2.

表3.二连杆空间机械臂具体参数

连杆编号i	L<sub>i</sub>(m)	R<sub>i</sub>(m)	m<sub>i</sub>(kg)	I<sub>i</sub>(kg·m<sup>2</sup>)
					1	-	1	70	11.67
2	1	1	8	2.67
					3	1	1	4	1.33

模型离散化以0.005s为采样时间，给定系统矩阵和扰动：

初始角速度为0，初始关节位置为：

系统矩阵A和B可从初始状态x₀迭代计算动力学方程和系统不确定性来得到。动作u_k表示输入力矩，被限制在U＝[-20,20]范围内。实验中假设共四个故障模态，即n_f＝4:

在运行过程中，Gi为时变矩阵，从对应的高斯分布中采样得到。

步骤2：强化学习训练设置及结果：

Actor和Critic网络都为全连接网络，每个网络包含两个隐藏层，每个隐藏层包含256个神经元，使用tanh激活函数来生成有界输出。每3600个交互样本进行一次策略优化，Critic网络V_w和V_φ在每次优化中利用Adam优化器进行80次随机梯度更新，学习率为η＝10^-3。Actor网络通过式(25)进行更新，跟踪误差上界β＝0.2，KL约束阈值设为δ＝0.01，线搜索步长α＝0.8，惩罚约束阈值d＝18。强化学习训练曲线如图2所示。

智能体通过大约1200个回合收敛至最优策略，随着训练次数的提高，智能体对各故障模态输出的分离能力逐步提高，同时，智能体违反惩罚约束的次数迅速减少，从初始时较高的违反率降至给定阈值以下，这说明了容错控制效果在AFD过程中得到了保障。当约束违反率不超过阈值时，原问题简化为无约束问题，强化学习策略将只关注于提升奖励回报，同时这将导致容错控制效果变差。

步骤3：空间机械臂AFD实验结果：

故障场景设置为：从时间步k＝0,…,19，系统处于健康模态，执行器故障发生于k＝20，执行器故障矩阵从单位阵I随机变成G³。此时，采用表2所述基于CRL的主动故障诊断策略，每隔40个时间步进行一次错误故障模态排除，最后确定当前系统模态。各系统的运行轨迹如图3所示。

在k＝20时刻故障发生，各故障模态从同一初始状态x₂₀开始运行，在主动输入的激励下，各故障模态的输出轨迹逐渐分离，而与当前系统一致的故障模态的输出轨迹呈出相对较高的相似性。与此同时，AFD期间轨迹跟踪误差保持在给定的阈值范围内。跟踪效果如图4所示。在AFD期间，由于CRL策略的主要目的是分离各故障模态输出，因此无法很好的保证容错性能。在k＝140时，AFD结束，当前系统的故障模态被确定，此时策略将目标转移到轨迹跟踪任务上，跟踪误差重新被控制在较小范围内。

图5为运行期间的MMD指标变化曲线图，反映了故障模态和当前模态的匹配程度，MMD值越大则相似程度越低。MMD为故障隔离的参考指标，在k＝40,80,120时刻每次排除MMD值最大的故障模态，最终得到唯一确定的模态。

通过实验可知，本发明提出的基于CRL的主动故障诊断方案能够有效实现数据驱动框架下的故障诊断，同时在诊断期间保障了容错控制性能，提高了故障情况下系统的安全性。该方案避免了对精确模型的依赖，且能够处理模型不确定性和计算实时性等问题。

综上所述，本发明以空间机械臂为对象，以执行器故障为具体故障类型，提出了一种基于约束强化学习的主动故障诊断框架，同时考虑诊断期间的容错性能，能够在给定的容许跟踪误差范围之内进行实时的输入设计，实现故障模态输出分布的距离最大化。在此基础上，设计了数据驱动框架下的基于MMD指标的故障隔离方法，用于排除错误模态并确定当前系统属于何种故障模态。

本发明引入约束强化学习算法，解决结合主动故障诊断和容错控制的双目标优化问题，具体而言，该方法能够实现：

1、在故障发生后，利用强化学习方法进行容错性能约束下的主动输入设计，使得各故障模态的输出差异最大化；

2、在主动输入的激励下，仅通过系统的输入输出数据来判断系统所属的故障模态；

3、在得到故障信息后，对故障系统进行容错控制。

本发明的优点主要有：

1、数据驱动框架下，基于强化学习的主动故障诊断方法实现；

2、基于约束强化学习的主动输入设计、基于MMD指标的故障隔离方法设计，二者组成的主动故障诊断框架；

3、本发明提出的主动故障诊断方法能够在诊断期间兼顾容错控制性能，进一步提高系统的安全性。

4、空间机械臂作为一种高耦合，非线性的复杂系统，难以应用现有的主动故障诊断方法，而本发明能够克服这一问题。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种空间机械臂主动故障诊断方法，其特征在于，通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架；其中，对于建模的空间机械臂系统的输入引入约束强化学习算法，使得所述输入能够在保障容错控制(FTC)性能的前提下，最大化各故障模态的输出差异度，实现故障分离；以及，在主动输入的激励下，通过数据驱动框架下的基于最大均值差异指标的故障隔离方法，根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。

2.如权利要求1所述的空间机械臂主动故障诊断方法，其特征在于，在得到故障信息后，对系统进行容错控制。

3.如权利要求1或2所述的空间机械臂主动故障诊断方法，其特征在于，所述空间机械臂为二连杆空间机械臂。

4.如权利要求1至3任一项所述的空间机械臂主动故障诊断方法，其特征在于，所述空间机械臂系统按照如下的方法建模：