CN114083543A - 一种空间机械臂主动故障诊断方法 - Google Patents

一种空间机械臂主动故障诊断方法 Download PDF

Info

Publication number
CN114083543A
CN114083543A CN202111586210.XA CN202111586210A CN114083543A CN 114083543 A CN114083543 A CN 114083543A CN 202111586210 A CN202111586210 A CN 202111586210A CN 114083543 A CN114083543 A CN 114083543A
Authority
CN
China
Prior art keywords
fault
active
input
fault diagnosis
space manipulator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111586210.XA
Other languages
English (en)
Other versions
CN114083543B (zh
Inventor
徐峰
颜子琛
梁斌
刘厚德
王学谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202111586210.XA priority Critical patent/CN114083543B/zh
Publication of CN114083543A publication Critical patent/CN114083543A/zh
Application granted granted Critical
Publication of CN114083543B publication Critical patent/CN114083543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Abstract

一种空间机械臂主动故障诊断方法,通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架;其中,对于建模的空间机械臂系统的输入引入约束强化学习算法,使得所述输入能够在保障容错控制(FTC)性能的前提下,最大化各故障模态的输出差异度,实现故障分离;以及,在主动输入的激励下,通过数据驱动框架下的基于最大均值差异指标的故障隔离方法,根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。本方法可同时兼顾主动故障诊断和容错控制性能两类目标,以一种安全的方式对系统进行故障诊断,并且能够有效克服建模困难,模型不确定影响和计算复杂度高等问题。

Description

一种空间机械臂主动故障诊断方法
技术领域
本发明涉及故障诊断领域,特别是涉及一种空间机械臂主动故障诊断方法。
背景技术
随着社会经济的发展和科学技术的进步,现代控制系统呈现出智能化和复杂化的趋势。而在系统运作时,故障的发生不可避免,如不进行及时处理则将导致财产损失和人员伤亡。因此,故障诊断技术是提高系统安全性、可靠性和降低事故风险的关键技术。
现有故障诊断方法绝大多数是在“被动”框架下进行的,即仅利用系统的输入输出数据生成用于指示故障的残差信号,没有对系统施加额外的输入信号,从而不对系统的演化规律产生影响。此类故障诊断方法可称为被动故障诊断方法。然而,系统的不确定性(如外部干扰和测量噪声)和自适应控制措施可能会削弱故障造成的影响,从而阻碍可靠的故障诊断。相比之下,主动故障诊断(AFD)通过设计辅助输入的方式激励系统,来增强故障的表现特征,提高其可检测性和诊断能力。AFD方法可分为两步:1、主动输入设计,设计的目的是最大化故障模态输出的差异程度;2、故障隔离方法设计,用于辨别当前系统的故障模态,排除错误模态来确定最后的正确模态。
目前,主动故障诊断方法主要在基于模型的方法框架下展开研究,已有许多学者在基于模型的AFD研究中取得了进展,并拓展至各类复杂系统上。然而在实际应用中,此类方法过度依赖于系统精确的动力学模型,且存在计算复杂度高、系统不确定性建模困难等问题,使得现有的AFD方法应用受限。
现有技术的缺点主要有:
1.已有的基于模型的AFD方法中,存在对精确模型以及不确定性因素的建模困难问题;
2.已有方法大多通过优化求解最优输入,计算复杂度过高导致方法不满足实时性,难以应用且计算成本过高;
3.已有的AFD方法缺乏对诊断期间容错性能的考虑,主动输入可能使得系统受损,或无法有效权衡AFD和FTC这两个优化目标在优化问题中的比重。
需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的主要目的在于克服上述背景技术的缺陷,提供一种空间机械臂主动故障诊断方法。
为实现上述目的,本发明采用以下技术方案:
一种空间机械臂主动故障诊断方法,通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架;其中,对于建模的空间机械臂系统的输入引入约束强化学习算法,使得所述输入能够在保障容错控制(FTC)性能的前提下,最大化各故障模态的输出差异度,实现故障分离;以及,在主动输入的激励下,通过数据驱动框架下的基于最大均值差异指标的故障隔离方法,根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。
优选地,在得到故障信息后,对系统进行容错控制。
优选地,所述空间机械臂为二连杆空间机械臂。
优选地,所述空间机械臂系统按照如下的方法建模:
在自由漂浮运行条件下,即零初始动量和无外力条件下,空间机械臂的整体质心被设置在惯性坐标系ΣI的原点处;基座,连杆1和连杆2的长度分别为a,l2和l3对应的质量为m1,m2和m3;θ1表示基座在坐标系Σ0下的旋转角度,θ2和θ3分别表示连杆一和连杆二绕z轴的旋转角度;
二两杆空间机械臂的动力学方程表示为:
Figure BDA0003425517010000021
其中m∈R3×3为正定惯性矩阵,h∈R3×1包含了非线性科里奥利力和离心力项,q=[θ1θ2θ3]T和τ=[τ1τ2τ3]T分别表示关节位置和关节力矩向量;
Figure BDA0003425517010000031
Figure BDA0003425517010000032
其中
Figure BDA0003425517010000033
Figure BDA0003425517010000034
并考虑系统随机扰动w,测量噪声v和执行器故障矩阵G,得到离散时间增广形式的系统动力学方程:
Figure BDA0003425517010000035
其中
Figure BDA0003425517010000036
Δt表示采样间隔;系统(12)对应的参考系统为
Figure BDA0003425517010000037
式(12)和式(13)作为后续验证AFD方法的系统模型。
优选地,包括针对主动故障诊断和容错控制的双目标优化的优化问题建模,其中:
给定一类受执行器故障影响的离散非线性随机系统:
Figure BDA0003425517010000038
其中
Figure BDA0003425517010000039
Figure BDA00034255170100000310
Figure BDA00034255170100000311
分别表示系统在k时刻的状态,输出和输入;
Figure BDA00034255170100000312
Figure BDA00034255170100000313
表示独立的高斯噪声;上标i表示一共nf个故障模态,不同故障模态具有不同的
Figure BDA00034255170100000314
Gi矩阵第j个对角元
Figure BDA00034255170100000315
用于模拟执行器性能损失,无故障模态F0下G0=I,所有模态集合定义为
Figure BDA00034255170100000316
对应的参考系统为:
Figure BDA00034255170100000317
其中
Figure BDA00034255170100000318
为独立的的有界参考输入;所有系统的初始状态x0是一致的,且服从高斯分布,每个模态拥有各自的迭代变量xk和yk;除参考系统外,其余系统共享输入uk
兼顾容错控制性能的主动故障诊断问题描述为:
发生故障后,在故障诊断期间,设计输入uk∈U使得各故障模态Fi(i∈I)的输出分布尽可能分离;与此同时,当前系统的输出yk应跟踪参考信号ykref;确定双目标优化问题:
Figure BDA0003425517010000041
其中β为人为设定的超参数;将式(16)转化为一个约束优化问题
Figure BDA0003425517010000042
其阈值β表示跟踪误差的上界,求解问题(17)。
优选地,所述约束强化学习算法包括:
在约束马尔可夫决策过程中,智能体从环境交互中得到奖励r,还得到惩罚cost;惩罚函数Ic定义为:
Figure BDA0003425517010000043
即当跟踪误差超出阈值范围时,惩罚值cost将从0变为1;令
Figure BDA0003425517010000044
表示惩罚回报的期望,则约束策略优化问题为:
Figure BDA0003425517010000045
其中
Figure BDA0003425517010000046
所述约束强化学习算法基于actor-critic架构,actor即策略网络πθ(ak|sk),critic为价值网络Vw(sk)和Vφ(sk),分别用来拟合状态sk的价值Vπ(sk)和惩罚回报
Figure BDA0003425517010000047
策略优化即优化网络参数θ,w,φ;
在网络训练前,智能体将与环境交互并将历史数据存入记忆库
Figure BDA0003425517010000048
中,计算奖励回报Rk和惩罚回报
Figure BDA0003425517010000049
的真实值作为训练目标;在一次策略优化后,记忆库将清空,每次优化只使用最新策略的交互数据。
优选地,所述约束强化学习算法进一步包括:
Critic网络更新规则:
根据价值网络的定义,价值网络的损失函数定义为真实值和预测值之间的均方误差,即:
Figure BDA0003425517010000051
期望值用记忆库中的批量数据进行近似,网络参数w和φ用批量随机梯度下降算法进行更新:
Figure BDA0003425517010000052
Actor网络更新规则:
参数θ的更新即求解优化问题(19),该约束问题表示为
Figure BDA0003425517010000053
令目标函数的梯度
Figure BDA0003425517010000054
为g,惩罚约束项的梯度
Figure BDA0003425517010000055
为b,定义变量
Figure BDA0003425517010000056
式(22)的线性近似为:
Figure BDA0003425517010000057
Fisher信息矩阵F(θk)为半正定矩阵,该问题为凸优化问题,利用对偶问题进行求解,式(23)的拉格朗日函数为:
Figure BDA0003425517010000058
其中ν和λ为拉格朗日乘子,x=θ-θk,F(θk)被简写为F;如果该问题可行,最优x*满足:
Figure BDA0003425517010000061
对偶问题表示为:
Figure BDA0003425517010000062
其中,p=gTF-1g,q=gTF-1b,s=bTF-1b;对式(26)求导可得最优的ν*
Figure BDA0003425517010000063
根据式(26)v*计算得到最优的λ*
不可行问题下的恢复策略:
在不满足约束情况下,策略优化的目标变成最小化期望惩罚,即:
Figure BDA0003425517010000064
其更新方式为:
Figure BDA0003425517010000065
优选地,空间机械臂的主动故障诊断策略包括:
主动输入设计:
当执行器故障发生时,矩阵G从单位矩阵变成未知的Gi,主动输入使各故障模态输出之间的距离最大化,同时当前系统输出yk尽可能跟踪参考输出
Figure BDA0003425517010000066
输入设计问题由CRL算法进行求解,强化学习中的状态s设计为
Figure BDA0003425517010000067
其中x,y分别表示各个系统的状态和输出;动作a设计为a=u,即关节输入力矩;
故障隔离方法设计:
在数据驱动框架下,基于MMD指标衡量不同系统输出轨迹的相似度,从而实现故障隔离;给定两个数据集X:={x1,…,xm}和Y:={y1,…,ym},分别服从独立同分布p和q,其平方MMD的计算公式为:
MMD2[H,p,q]=Ex,x′[k(x,x′)]-2Ex,y[k(x,y)]+Ey,y′[k(y,y′)] (31)
其中k(x,x′)=<h(x),h(x′)>表示核函数,使用高斯核函数对向量化后的轨迹进行计算,即
Figure BDA0003425517010000071
其中函数φN(·)表示将所有状态-动作对历史数据叠加成增广向量的形式;当分布p=q时,MMD2[H,p,q]=0,MMD值越大说明两个分布相差越大;
根据MMD指标,利用输出数据衡量两个系统之间的相似程度,从而实现故障隔离;
对状态s进行调整:
Figure BDA0003425517010000072
其中,标志位ti对应第i个故障模态Fi,当Fi被排除,ti将从1变为0,表示故障模态Fi将不会在后续的优化算法中被考虑;相应的奖励函数设计为:
Figure BDA0003425517010000073
从而,强化学习策略关注于分离未被排除的故障模态间的输出分布。
一种计算机可读存储介质,其存储的计算机程序由处理器运行时,实现所述的空间机械臂主动故障诊断方法。
本发明具有如下有益效果:
本发明提供一种空间机械臂主动故障诊断方法,其中从数据的角度出发,设计了一种基于数据的主动故障诊断方法框架。同时,考虑主动故障诊断期间辅助输入对系统的损害性,引入约束强化学习算法进行输入设计,使得输入能够在保障容错控制(FTC)性能的前提下,最大化各故障模态的输出差异度,实现故障分离。此外,设计了一种数据驱动框架下的故障隔离方法,即通过分析系统的输入输出信号判断当前系统属于哪种故障模态。本发明的方法在二连杆空间机械臂上进行了算法验证。由于空间机械臂系统具有高耦合,非线性等特点,现有的主动故障诊断方法难以在该系统上进行应用,而本发明在实验中证明了其能够克服这些困难,并以一种安全的方式实现故障诊断。
与传统技术相比,本发明实施例的优势主要体现在如下方面:
1、利用本发明提出的主动故障诊断方法,可以在数据框架下,实现空间机械臂执行器故障诊断,确定系统的故障模态类型;
2、利用本发明提出的主动故障诊断方法,能够有效克服建模困难,模型不确定影响和计算复杂度高等问题,相比现有的基于模型的方法具有更广泛的应用前景;
3、利用本发明提出的方法,可同时兼顾主动故障诊断和容错控制性能两类目标,以一种安全的方式对系统进行故障诊断。
附图说明
图1为本发明一种实施例的平面二连杆空间机械臂示意图。
图2为本发明一种实施例的强化学习训练曲线图,其中(a)每回合回报曲线图,(b)每回合惩罚曲线图。
图3为本发明一种实施例的AFD期间各系统输出轨迹。
图4为本发明一种实施例的轨迹跟踪效果曲线图,其中(a)关节1速度跟踪曲线图,(b)关节2速度跟踪曲线图。
图5为本发明一种实施例的AFD期间MMD变化曲线图。
具体实施方式
以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
涉及的术语:
AFD:Active Fault Diagnosis(主动故障诊断),
FTC:Fault-tolerant Control(容错控制),
CRL:Constrained Reinforcement Learning(约束强化学习),
MMD:Maximum Mean Discrepancy(最大均值差异)。
本发明实施例提供一种空间机械臂主动故障诊断方法,通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架;其中,对于建模的空间机械臂系统的输入引入约束强化学习算法,使得所述输入能够在保障容错控制(FTC)性能的前提下,最大化各故障模态的输出差异度,实现故障分离;以及,在主动输入的激励下,通过数据驱动框架下的基于最大均值差异指标的故障隔离方法,根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。
以下详细描述本发明的具体实施例。
强化学习基础
步骤1:强化学习符号说明:
随机策略π(ak|sk)表示在状态sk下选择动作ak的概率,该策略对应的回报Rk,即累计折扣奖励,被定义为:
Figure BDA0003425517010000091
其中,r表示瞬时奖励,用于衡量当前动作的价值,γ∈(0,1)表示时间折扣因子。最优策略的含义为能够最大化期望回报
Figure BDA0003425517010000092
其中,τ=(s0,a0,…,sk,ak)表示策略π指导下的状态-行为轨迹。此外,状态-行为值函数Qπ,价值函数Vπ和优势函数Aπ的定义如下:
Figure BDA0003425517010000093
Vπ(sk)表示策略π下状态sk的期望回报,Qπ(sk,ak)表示在状态sk下执行动作ak的期望回报,Aπ(sk,ak)表示状态sk下执行动作ak相较于其他动作的优势值函数。通常随机策略π由神经网络表示,θ表示网络参数,则最优的参数化策略
Figure BDA0003425517010000094
可写作
Figure BDA0003425517010000095
步骤2:策略优化方法:
为了保障策略更新的单调提升,首先列出两个不同策略
Figure BDA0003425517010000096
Figure BDA0003425517010000097
的性能差异表达式
Figure BDA0003425517010000101
其中,
Figure BDA0003425517010000102
表示折扣未来状态分布。只要等式(5)右侧保持非负,则更新后的策略
Figure BDA0003425517010000103
将优于
Figure BDA0003425517010000104
,因此置信域策略优化方法提出了以下策略更新方式:
Figure BDA0003425517010000105
由于
Figure BDA0003425517010000106
在策略更新时不可得,这里运用重要性采样技巧,同时
Figure BDA0003425517010000107
被用
Figure BDA0003425517010000108
近似。为了保证近似误差,策略更新的幅度被用Kullback-Leibler(KL)距离进行了限制,δ表示设定阈值。当新策略
Figure BDA0003425517010000109
和旧策略
Figure BDA00034255170100001010
足够接近时,优化目标和KL距离可分别用一阶和二阶泰勒展开在θ=θk处进行近似,近似后的问题被表示为:
Figure BDA00034255170100001011
其中,
Figure BDA00034255170100001012
Δθ=θ-θk
Figure BDA00034255170100001013
表示Fisher信息矩阵。令
Figure BDA00034255170100001014
式(7)的解可由Karush-Kuhn-Tucker(KKT)条件求得:
Figure BDA00034255170100001015
为了保证简化问题的解是原问题的可行解,应用了回溯线搜索方法,α为搜索步长,i表示搜索步数。
空间机械臂建模
二连杆空间机械臂的原理图如图1所示。在自由漂浮运行条件下,即零初始动量和无外力条件下,空间机械臂的整体质心被设置在惯性坐标系ΣI的原点处。基座,连杆1和连杆2的长度分别为a,l2和l3,它们对应的质量为m1,m2和m3。θ1表示基座在坐标系Σ0下的旋转角度,θ2和θ3分别表示连杆一和连杆二绕z轴的旋转角度。
根据欧拉-拉格朗日定理,二两杆空间机械臂的动力学方程可以表示为:
Figure BDA0003425517010000111
其中m∈R3×3为正定惯性矩阵,h∈R3×1包含了非线性科里奥利力和离心力项,q=[θ1θ2θ3]T和τ=[τ1τ2τ3]T分别表示关节位置和关节力矩向量。
在自由漂浮条件下,基座力矩τ1=0,并根据动量守恒原理,
Figure BDA0003425517010000112
可以用包含
Figure BDA0003425517010000113
Figure BDA0003425517010000114
的函数进行替代,即
Figure BDA0003425517010000115
因此通过消除τ1
Figure BDA0003425517010000116
可对式(9)进行简化,可得
Figure BDA0003425517010000117
其中
Figure BDA0003425517010000118
Figure BDA0003425517010000119
并考虑系统随机扰动w,测量噪声v和执行器故障矩阵G,可得离散时间增广形式的系统动力学方程:
Figure BDA00034255170100001110
其中
Figure BDA00034255170100001111
Δt表示采样间隔。系统(12)对应的参考系统可表示为
Figure BDA00034255170100001112
式(12)和式(13)将作为后续验证AFD方法的系统模型。
优化问题建模
给定一类受执行器故障影响的离散非线性随机系统:
Figure BDA0003425517010000121
其中
Figure BDA0003425517010000122
Figure BDA0003425517010000123
分别表示系统在k时刻的状态,输出和输入。
Figure BDA0003425517010000124
Figure BDA0003425517010000125
表示独立的高斯噪声。上标i表示一共nf个故障模态,不同故障模态由不同的
Figure BDA0003425517010000126
来刻画,Gi矩阵第j个对角元
Figure BDA0003425517010000127
用于模拟执行器性能损失,无故障模态F0下G0=I,因此所有模态集合定义为
Figure BDA0003425517010000128
对应的参考系统为:
Figure BDA0003425517010000129
其中
Figure BDA00034255170100001210
为独立的的有界参考输入。所有系统的初始状态x0是一致的,且服从高斯分布,但由于每个系统模态具有不同的G,因此每个模态拥有各自的迭代变量xk和yk。除参考系统外,其余系统共享输入uk
针对上述系统,兼顾容错控制性能的主动故障诊断问题可描述为:
发生故障后,在故障诊断期间,设计输入uk∈U使得各故障模态Fi(i∈I)的输出分布尽可能分离。与此同时,当前系统的输出yk应跟踪参考信号
Figure BDA00034255170100001211
这是一个双目标优化问题:
Figure BDA00034255170100001212
由于β为人为设定的超参数,给优化问题的求解带来了不确定性,因此本发明中将式(16)转化为一个约束优化问题
Figure BDA00034255170100001213
在这种设置下,阈值β表示跟踪误差的上界,其大小可根据应用需求来直观的设计。问题(17)的求解将在下一节叙述。
约束强化学习算法
在约束马尔可夫决策过程中,智能体不仅从环境交互中得到奖励r,还得到惩罚cost。在本发明中,惩罚函数Ic定义为:
Figure BDA0003425517010000131
即当跟踪误差超出阈值范围时,惩罚值cost将从0变为1。令
Figure BDA0003425517010000132
表示惩罚回报的期望,则约束策略优化问题可以写作:
Figure BDA0003425517010000133
其中
Figure BDA0003425517010000134
CRL算法基于演员-评论家(Actor-Critic)架构,actor即策略网络πθ(ak|sk),critic为价值网络Vw(sk)和Vφ(sk),分别用来拟合状态sk的价值Vπ(sk)和惩罚回报
Figure BDA0003425517010000135
。策略优化即优化网络参数θ,w,φ。
由于该算法属于on-policy算法,在网络训练前,智能体将与环境交互并将历史数据存入记忆库
Figure BDA0003425517010000136
中,计算奖励回报Rk和惩罚回报
Figure BDA0003425517010000137
的真实值作为训练目标。在一次策略优化后,记忆库将清空,每次优化只使用最新策略的交互数据。
步骤1:Critic网络更新规则:
根据价值网络的定义,价值网络的损失函数可定义为真实值和预测值之间的均方误差,即:
Figure BDA0003425517010000138
期望值可用记忆库中的批量数据进行近似,网络参数w和φ可用批量随机梯度下降算法进行更新:
Figure BDA0003425517010000139
步骤2:Actor网络更新规则:
参数θ的更新即求解优化问题(19),根据式(5)和式(6),该约束问题可表示为
Figure BDA0003425517010000141
对于神经网络这样的高维参数空间,直接求解式(22)计算复杂度过大,因此对其在
Figure BDA0003425517010000142
处进行近似化。令目标函数的梯度
Figure BDA0003425517010000143
为g,惩罚约束项的梯度
Figure BDA0003425517010000144
为b,定义变量
Figure BDA0003425517010000145
式(22)的线性近似为:
Figure BDA0003425517010000146
由于Fisher信息矩阵F(θk)为半正定矩阵,该问题为凸优化问题,可利用对偶问题进行求解。式(23)的拉格朗日函数可写做:
Figure BDA0003425517010000147
其中ν和λ为拉格朗日乘子,x=θ-θk,F(θk)被简写为F。如果该问题可行,最优x*满足:
Figure BDA0003425517010000148
对偶问题可表示为:
Figure BDA0003425517010000149
其中,p=gTF-1g,q=gTF-1b,s=bTF-1b。对式(26)求导可得最优的ν*
Figure BDA00034255170100001410
将ν*代入原式(26)可计算得到最优的λ*
步骤3:不可行问题下的恢复策略:
在上述优化问题求解中,求得最优的ν*和λ*便可根据式(25)进行行为策略优化,但由于存在近似误差和初始误差,策略优化可能朝错误的方向进行从而使得问题不可行。对此,在不满足约束情况下,策略优化的目标变成最小化期望惩罚,即:
Figure BDA0003425517010000151
其更新方式为:
Figure BDA0003425517010000152
整体算法流程如表1所示。
表1.约束策略优化算法
Figure BDA0003425517010000153
空间机械臂的主动故障诊断策略设计
主动故障诊断策略可分为两步:主动输入设计和故障隔离方法设计。
步骤1:主动输入设计:
当执行器故障发生时,矩阵G从单位矩阵变成未知的Gi,主动输入的目的是最大化各故障模态输出之间的距离,同时当前系统输出yk应尽可能跟踪参考输出
Figure BDA0003425517010000161
。输入设计问题可由CRL算法进行求解,强化学习中的状态s设计为
Figure BDA0003425517010000162
其中x,y分别表示各个系统的状态和输出。动作a设计为a=u,即关节输入力矩。
步骤2:故障隔离方法设计;
故障隔离的目的是排除不匹配的故障模态,从而确定当前系统处于何种故障模态。在数据驱动框架下,本发明基于MMD指标衡量不同系统输出轨迹的相似度,从而实现故障隔离。给定两个数据集X:={x1,…,xm}和Y:={y1,…,ym},分别服从独立同分布p和q,其平方MMD的计算公式为:
MMD2[H,p,q]=Ex,x′[k(x,x′)]-2Ex,y[k(x,y)]+Ey,y′[k(y,y′)] (31)
其中k(x,x′)=<h(x),h(x′)>表示核函数,本发明中使用高斯核函数对向量化后的轨迹进行计算,即
Figure BDA0003425517010000163
其中函数φN(·)表示将所有状态-动作对历史数据叠加成增广向量的形式。当分布p=q时,MMD2[H,p,q]=0,MMD值越大说明两个分布相差越大。
根据MMD指标可利用输出数据衡量两个系统之间的相似程度,从而实现故障隔离。为了将逐步排除故障模态这一思路融入强化学习策略中,需对状态s进行调整,即修改式(30):
Figure BDA0003425517010000164
其中,标志位ti对应第i个故障模态Fi,当Fi被排除,ti将从1变为0,表示故障模态Fi将不会在后续的优化算法中被考虑。相应的奖励函数设计为:
Figure BDA0003425517010000171
这意味着强化学习策略会关注于分离未被排除的故障模态间的输出分布。完整的基于CRL的主动故障诊断策略如表2所示。
表2.基于CRL的主动故障诊断策略
Figure BDA0003425517010000172
1.3.2.6仿真验证
为了验证算法的有效性,本发明在平面二连杆空间机械臂上进行了仿真实验。
步骤1:具体参数设置:
空间机械臂的具体参数如表3所示。
2.
表3.二连杆空间机械臂具体参数
连杆编号i L<sub>i</sub>(m) R<sub>i</sub>(m) m<sub>i</sub>(kg) I<sub>i</sub>(kg·m<sup>2</sup>)
1 - 1 70 11.67
2 1 1 8 2.67
3 1 1 4 1.33
模型离散化以0.005s为采样时间,给定系统矩阵和扰动:
Figure BDA0003425517010000181
初始角速度为0,初始关节位置为:
Figure BDA0003425517010000182
系统矩阵A和B可从初始状态x0迭代计算动力学方程和系统不确定性来得到。动作uk表示输入力矩,被限制在U=[-20,20]范围内。实验中假设共四个故障模态,即nf=4:
Figure BDA0003425517010000183
在运行过程中,Gi为时变矩阵,从对应的高斯分布中采样得到。
步骤2:强化学习训练设置及结果:
Actor和Critic网络都为全连接网络,每个网络包含两个隐藏层,每个隐藏层包含256个神经元,使用tanh激活函数来生成有界输出。每3600个交互样本进行一次策略优化,Critic网络Vw和Vφ在每次优化中利用Adam优化器进行80次随机梯度更新,学习率为η=10-3。Actor网络通过式(25)进行更新,跟踪误差上界β=0.2,KL约束阈值设为δ=0.01,线搜索步长α=0.8,惩罚约束阈值d=18。强化学习训练曲线如图2所示。
智能体通过大约1200个回合收敛至最优策略,随着训练次数的提高,智能体对各故障模态输出的分离能力逐步提高,同时,智能体违反惩罚约束的次数迅速减少,从初始时较高的违反率降至给定阈值以下,这说明了容错控制效果在AFD过程中得到了保障。当约束违反率不超过阈值时,原问题简化为无约束问题,强化学习策略将只关注于提升奖励回报,同时这将导致容错控制效果变差。
步骤3:空间机械臂AFD实验结果:
故障场景设置为:从时间步k=0,…,19,系统处于健康模态,执行器故障发生于k=20,执行器故障矩阵从单位阵I随机变成G3。此时,采用表2所述基于CRL的主动故障诊断策略,每隔40个时间步进行一次错误故障模态排除,最后确定当前系统模态。各系统的运行轨迹如图3所示。
在k=20时刻故障发生,各故障模态从同一初始状态x20开始运行,在主动输入的激励下,各故障模态的输出轨迹逐渐分离,而与当前系统一致的故障模态的输出轨迹呈出相对较高的相似性。与此同时,AFD期间轨迹跟踪误差保持在给定的阈值范围内。跟踪效果如图4所示。在AFD期间,由于CRL策略的主要目的是分离各故障模态输出,因此无法很好的保证容错性能。在k=140时,AFD结束,当前系统的故障模态被确定,此时策略将目标转移到轨迹跟踪任务上,跟踪误差重新被控制在较小范围内。
图5为运行期间的MMD指标变化曲线图,反映了故障模态和当前模态的匹配程度,MMD值越大则相似程度越低。MMD为故障隔离的参考指标,在k=40,80,120时刻每次排除MMD值最大的故障模态,最终得到唯一确定的模态。
通过实验可知,本发明提出的基于CRL的主动故障诊断方案能够有效实现数据驱动框架下的故障诊断,同时在诊断期间保障了容错控制性能,提高了故障情况下系统的安全性。该方案避免了对精确模型的依赖,且能够处理模型不确定性和计算实时性等问题。
综上所述,本发明以空间机械臂为对象,以执行器故障为具体故障类型,提出了一种基于约束强化学习的主动故障诊断框架,同时考虑诊断期间的容错性能,能够在给定的容许跟踪误差范围之内进行实时的输入设计,实现故障模态输出分布的距离最大化。在此基础上,设计了数据驱动框架下的基于MMD指标的故障隔离方法,用于排除错误模态并确定当前系统属于何种故障模态。
本发明引入约束强化学习算法,解决结合主动故障诊断和容错控制的双目标优化问题,具体而言,该方法能够实现:
1、在故障发生后,利用强化学习方法进行容错性能约束下的主动输入设计,使得各故障模态的输出差异最大化;
2、在主动输入的激励下,仅通过系统的输入输出数据来判断系统所属的故障模态;
3、在得到故障信息后,对故障系统进行容错控制。
本发明的优点主要有:
1、数据驱动框架下,基于强化学习的主动故障诊断方法实现;
2、基于约束强化学习的主动输入设计、基于MMD指标的故障隔离方法设计,二者组成的主动故障诊断框架;
3、本发明提出的主动故障诊断方法能够在诊断期间兼顾容错控制性能,进一步提高系统的安全性。
4、空间机械臂作为一种高耦合,非线性的复杂系统,难以应用现有的主动故障诊断方法,而本发明能够克服这一问题。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。

Claims (9)

1.一种空间机械臂主动故障诊断方法,其特征在于,通过基于约束强化学习(CRL)的主动输入以及基于最大均值差异(MMD)指标的故障隔离方法来构建主动故障诊断框架;其中,对于建模的空间机械臂系统的输入引入约束强化学习算法,使得所述输入能够在保障容错控制(FTC)性能的前提下,最大化各故障模态的输出差异度,实现故障分离;以及,在主动输入的激励下,通过数据驱动框架下的基于最大均值差异指标的故障隔离方法,根据分析系统的输入输出信号来排除错误模态并确定当前系统属于何种故障模态。
2.如权利要求1所述的空间机械臂主动故障诊断方法,其特征在于,在得到故障信息后,对系统进行容错控制。
3.如权利要求1或2所述的空间机械臂主动故障诊断方法,其特征在于,所述空间机械臂为二连杆空间机械臂。
4.如权利要求1至3任一项所述的空间机械臂主动故障诊断方法,其特征在于,所述空间机械臂系统按照如下的方法建模:
在自由漂浮运行条件下,即零初始动量和无外力条件下,空间机械臂的整体质心被设置在惯性坐标系ΣI的原点处;基座,连杆1和连杆2的长度分别为a,l2和l3对应的质量为m1,m2和m3;θ1表示基座在坐标系Σ0下的旋转角度,θ2和θ3分别表示连杆一和连杆二绕z轴的旋转角度;
二两杆空间机械臂的动力学方程表示为:
Figure FDA0003425516000000011
其中m∈R3×3为正定惯性矩阵,h∈R3×1包含了非线性科里奥利力和离心力项,q=[θ1 θ2θ3]T和τ=[τ1 τ2 τ3]T分别表示关节位置和关节力矩向量;
Figure FDA0003425516000000012
Figure FDA0003425516000000021
其中
Figure FDA0003425516000000022
Figure FDA0003425516000000023
并考虑系统随机扰动w,测量噪声v和执行器故障矩阵G,得到离散时间增广形式的系统动力学方程:
Figure FDA0003425516000000024
其中
Figure FDA0003425516000000025
Δt表示采样间隔;系统(12)对应的参考系统为
Figure FDA0003425516000000026
式(12)和式(13)作为后续验证AFD方法的系统模型。
5.如权利要求4所述的空间机械臂主动故障诊断方法,其特征在于,包括针对主动故障诊断和容错控制的双目标优化的优化问题建模,其中:
给定一类受执行器故障影响的离散非线性随机系统:
Figure FDA0003425516000000027
其中
Figure FDA0003425516000000028
Figure FDA0003425516000000029
分别表示系统在k时刻的状态,输出和输入;
Figure FDA00034255160000000210
Figure FDA00034255160000000211
表示独立的高斯噪声;上标i表示一共nf个故障模态,不同故障模态具有不同的
Figure FDA00034255160000000212
Gi矩阵第j个对角元
Figure FDA00034255160000000213
用于模拟执行器性能损失,无故障模态F0下G0=I,所有模态集合定义为
Figure FDA00034255160000000214
对应的参考系统为:
Figure FDA00034255160000000215
其中
Figure FDA00034255160000000216
为独立的的有界参考输入;所有系统的初始状态x0是一致的,且服从高斯分布,每个模态拥有各自的迭代变量xk和yk;除参考系统外,其余系统共享输入uk
兼顾容错控制性能的主动故障诊断问题描述为:
发生故障后,在故障诊断期间,设计输入uk∈U使得各故障模态Fi(i∈I)的输出分布尽可能分离;与此同时,当前系统的输出yk应跟踪参考信号
Figure FDA0003425516000000031
确定双目标优化问题:
Figure FDA0003425516000000032
其中β为人为设定的超参数;将式(16)转化为一个约束优化问题
Figure FDA0003425516000000033
其阈值β表示跟踪误差的上界,求解问题(17)。
6.如权利要求4至5任一项所述的空间机械臂主动故障诊断方法,其特征在于,所述约束强化学习算法包括:
在约束马尔可夫决策过程中,智能体从环境交互中得到奖励r,还得到惩罚cost;惩罚函数Ic定义为:
Figure FDA0003425516000000034
即当跟踪误差超出阈值范围时,惩罚值cost将从0变为1;令
Figure FDA0003425516000000035
表示惩罚回报的期望,则约束策略优化问题为:
Figure FDA0003425516000000036
其中
Figure FDA0003425516000000037
所述约束强化学习算法基于actor-critic架构,actor即策略网络πθ(ak|sk),critic为价值网络Vw(sk)和Vφ(sk),分别用来拟合状态sk的价值Vπ(sk)和惩罚回报
Figure FDA0003425516000000038
策略优化即优化网络参数θ,w,φ;
在网络训练前,智能体将与环境交互并将历史数据存入记忆库
Figure FDA0003425516000000039
中,计算奖励回报Rk和惩罚回报
Figure FDA00034255160000000310
的真实值作为训练目标;在一次策略优化后,记忆库将清空,每次优化只使用最新策略的交互数据。
7.如权利要求6所述的空间机械臂主动故障诊断方法,其特征在于,所述约束强化学习算法进一步包括:
Critic网络更新规则:
根据价值网络的定义,价值网络的损失函数定义为真实值和预测值之间的均方误差,即:
Figure FDA0003425516000000041
期望值用记忆库中的批量数据进行近似,网络参数w和φ用批量随机梯度下降算法进行更新:
Figure FDA0003425516000000042
Actor网络更新规则:
参数θ的更新即求解优化问题(19),该约束问题表示为
Figure FDA0003425516000000043
令目标函数的梯度
Figure FDA0003425516000000044
为g,惩罚约束项的梯度
Figure FDA0003425516000000045
为b,定义变量
Figure FDA0003425516000000046
式(22)的线性近似为:
Figure FDA0003425516000000047
Fisher信息矩阵F(θk)为半正定矩阵,该问题为凸优化问题,利用对偶问题进行求解,式(23)的拉格朗日函数为:
Figure FDA0003425516000000048
其中ν和λ为拉格朗日乘子,x=θ-θk,F(θk)被简写为F;如果该问题可行,最优x*满足:
Figure FDA0003425516000000051
对偶问题表示为:
Figure FDA0003425516000000052
其中,p=gTF-1g,q=gTF-1b,s=bTF-1b;对式(26)求导得最优的ν*
Figure FDA0003425516000000053
根据式(26)将v*计算得到最优的λ*
不可行问题下的恢复策略:
在不满足约束情况下,策略优化的目标变成最小化期望惩罚,即:
Figure FDA0003425516000000054
其更新方式为:
Figure FDA0003425516000000055
8.如权利要求4至7任一项所述的空间机械臂主动故障诊断方法,其特征在于,空间机械臂的主动故障诊断策略包括:
主动输入设计:
当执行器故障发生时,矩阵G从单位矩阵变成未知的Gi,主动输入使各故障模态输出之间的距离最大化,同时当前系统输出yk尽可能跟踪参考输出
Figure FDA0003425516000000056
输入设计问题由CRL算法进行求解,强化学习中的状态s设计为
Figure FDA0003425516000000057
其中x,y分别表示各个系统的状态和输出;动作a设计为a=u,即关节输入力矩;
故障隔离方法设计:
在数据驱动框架下,基于MMD指标衡量不同系统输出轨迹的相似度,从而实现故障隔离;给定两个数据集X:={x1,…,xm}和Y:={y1,…,ym},分别服从独立同分布p和q,其平方MMD的计算公式为:
MMD2[H,p,q]=Ex,x′[k(x,x′)]-2Ex,y[k(x,y)]+Ey,y′[k(y,y′)] (31)
其中k(x,x′)=<h(x),h(x′)>表示核函数,使用高斯核函数对向量化后的轨迹进行计算,即
Figure FDA0003425516000000061
其中函数φN(·)表示将所有状态-动作对历史数据叠加成增广向量的形式;当分布p=q时,MMD2[H,p,q]=0,MMD值越大说明两个分布相差越大;
根据MMD指标,利用输出数据衡量两个系统之间的相似程度,从而实现故障隔离;
对状态s进行调整:
Figure FDA0003425516000000062
其中,标志位ti对应第i个故障模态Fi,当Fi被排除,ti将从1变为0,表示故障模态Fi将不会在后续的优化算法中被考虑;相应的奖励函数设计为:
Figure FDA0003425516000000063
从而,强化学习策略关注于分离未被排除的故障模态间的输出分布。
9.一种计算机可读存储介质,其特征在于,其存储的计算机程序由处理器运行时,实现如权利要求1至8任一项所述的空间机械臂主动故障诊断方法。
CN202111586210.XA 2021-12-22 2021-12-22 一种空间机械臂主动故障诊断方法 Active CN114083543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111586210.XA CN114083543B (zh) 2021-12-22 2021-12-22 一种空间机械臂主动故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111586210.XA CN114083543B (zh) 2021-12-22 2021-12-22 一种空间机械臂主动故障诊断方法

Publications (2)

Publication Number Publication Date
CN114083543A true CN114083543A (zh) 2022-02-25
CN114083543B CN114083543B (zh) 2023-04-18

Family

ID=80307856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111586210.XA Active CN114083543B (zh) 2021-12-22 2021-12-22 一种空间机械臂主动故障诊断方法

Country Status (1)

Country Link
CN (1) CN114083543B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720150A (zh) * 2023-08-09 2023-09-08 山东晋工科技有限公司 一种机械制冷系统故障诊断方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020779A1 (en) * 2005-04-25 2011-01-27 University Of Washington Skill evaluation using spherical motion mechanism
CN104647378A (zh) * 2015-01-21 2015-05-27 江南大学 一种单关节机械臂系统的迭代学习故障诊断方法
CN107121977A (zh) * 2017-06-02 2017-09-01 南京邮电大学 基于双层结构的机械臂执行器故障容错控制系统及其方法
CN109129574A (zh) * 2018-11-08 2019-01-04 山东大学 服务机器人运动系统云端故障诊断系统及方法
CN109986562A (zh) * 2019-04-11 2019-07-09 南京航空航天大学 一种平面机械臂系统及其分散式容错控制方法
WO2020051256A1 (en) * 2018-09-04 2020-03-12 Michelle Archuleta Reinforcement learning approach to modify sentences using state groups
US20200339140A1 (en) * 2019-04-26 2020-10-29 GM Global Technology Operations LLC Controlling operation of a vehicle with a supervisory control module having a fault-tolerant controller
CN113146640A (zh) * 2021-04-27 2021-07-23 长春工业大学 一种考虑执行器故障的机械臂分散最优容错控制方法
CN113741491A (zh) * 2021-08-04 2021-12-03 江苏建筑职业技术学院 一种基于故障诊断结果的x型四旋翼无人机控制方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020779A1 (en) * 2005-04-25 2011-01-27 University Of Washington Skill evaluation using spherical motion mechanism
CN104647378A (zh) * 2015-01-21 2015-05-27 江南大学 一种单关节机械臂系统的迭代学习故障诊断方法
CN107121977A (zh) * 2017-06-02 2017-09-01 南京邮电大学 基于双层结构的机械臂执行器故障容错控制系统及其方法
WO2020051256A1 (en) * 2018-09-04 2020-03-12 Michelle Archuleta Reinforcement learning approach to modify sentences using state groups
CN109129574A (zh) * 2018-11-08 2019-01-04 山东大学 服务机器人运动系统云端故障诊断系统及方法
CN109986562A (zh) * 2019-04-11 2019-07-09 南京航空航天大学 一种平面机械臂系统及其分散式容错控制方法
US20200339140A1 (en) * 2019-04-26 2020-10-29 GM Global Technology Operations LLC Controlling operation of a vehicle with a supervisory control module having a fault-tolerant controller
CN113146640A (zh) * 2021-04-27 2021-07-23 长春工业大学 一种考虑执行器故障的机械臂分散最优容错控制方法
CN113741491A (zh) * 2021-08-04 2021-12-03 江苏建筑职业技术学院 一种基于故障诊断结果的x型四旋翼无人机控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZCYAN, ZICHENZHOU, FYZHOU: "Multi-Strategy Ensemble Whale Optimization Algorithm and Its Application to Analog Circuits Intelligent Fault Diagnosis" *
袁宪锋, 颜子琛, 周风余: "SSAE和IGWO-SVM 的滚动轴承故障诊断" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720150A (zh) * 2023-08-09 2023-09-08 山东晋工科技有限公司 一种机械制冷系统故障诊断方法及系统
CN116720150B (zh) * 2023-08-09 2023-10-20 山东晋工科技有限公司 一种机械制冷系统故障诊断方法及系统

Also Published As

Publication number Publication date
CN114083543B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
Zhou et al. New model for system behavior prediction based on belief rule based systems
CN108594638B (zh) 面向多任务多指标优化约束的航天器acs在轨重构方法
CN114083543B (zh) 一种空间机械臂主动故障诊断方法
CN115828611A (zh) 一种航天器机电部件的健康状态评估方法和装置
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
Goecks Human-in-the-loop methods for data-driven and reinforcement learning systems
CN116661307A (zh) 非线性系统执行器故障ppb-siadp容错控制方法
Liu et al. Attitude control for hypersonic reentry vehicles: An efficient deep reinforcement learning method
Dang et al. Event-triggered model predictive control with deep reinforcement learning for autonomous driving
CN115167102A (zh) 一种基于并行优势动作评价的强化学习自适应pid控制方法
Yang et al. Model-based reinforcement learning and neural-network-based policy compression for spacecraft rendezvous on resource-constrained embedded systems
Ren et al. Asynchronous H∞ filtering for semi-Markov jump TS fuzzy systems within partial state delay and deception attack: Applied to aircraft-pilot state estimation
Shahrooei et al. Falsification of learning-based controllers through multi-fidelity Bayesian optimization
He et al. Black-box modeling of ship maneuvering motion using system identification method based on BP neural network
Fu et al. Adaptive optimal control of unknown nonlinear systems with different time scales
Wang et al. A data driven method of feedforward compensator optimization for autonomous vehicle control
Lei et al. Modified Kalman particle swarm optimization: Application for trim problem of very flexible aircraft
Efe Neural network-based control
Shin et al. A domain-knowledge-aided deep reinforcement learning approach for flight control design
Vianna et al. Neural Network Based Model Predictive Control for an Autonomous Vehicle
Fu et al. Adaptive dynamic programming with balanced weights seeking strategy
Sun et al. Unmanned aerial vehicles control study using deep deterministic policy gradient
CN117268391B (zh) 一种基于目标分层架构的变形飞行器智能规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant