CN113359449B

CN113359449B - 基于强化学习的航空发动机双参数指数劣化维护方法

Info

Publication number: CN113359449B
Application number: CN202110629082.6A
Authority: CN
Inventors: 严如强; 杨旭彪; 周峥; 孙闯; 唐亚军; 杨波; 田绍华
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2023-01-03
Anticipated expiration: 2041-06-04
Also published as: CN113359449A

Abstract

本公开揭示了一种基于强化学习的航空发动机双参数指数劣化维护方法，包括：建立航空发动机的多部件系统劣化模型，其为含有随机误差项的双参数指数模型，利用状态阈值的方式将部件状态离散化得到离散状态；每次维护行为维护后对劣化轨迹进行更新得到维护后的性能提升水平，其分为瞬时性能提升和维护后的劣化发展两部分，基于双参数指数模型及其维护后的性能提升水平，构建状态之间的转移概率矩阵；基于部件劣化的离散状态构建成状态空间，维护动作构建成动作空间；通过经济成本与停机损失成本建立成本函数，并计算期望奖励值；采用Q‑Leaming算法以期望奖励最大为优化目标，获得每个部件劣化的离散状态下的最佳维护行为。

Description

基于强化学习的航空发动机双参数指数劣化维护方法

技术领域

本公开属于航空发动机多部件系统维修策略优化领域，尤其涉及一种基于强化学习的航空发动机双参数指数劣化维护方法。

背景技术

随着航空技术的快速发展，对飞机发动机系统的安全性、可靠性、经济性以及可持续性提出了越来越高的要求，然而由此所导致的相应维护和保障成本也将逐渐提高。因此，如何为结构复杂的发动机多部件系统提供智能维护决策具有重要的研究意义。

系统结构复杂、部件众多，实现维护决策的难点在于如何考虑部件之间的相互制约以及成本的共同约束的同时，提高总体可靠性，降低投入成本。以往的维护决策研究大都注重于单部件系统，对系统中各部件实施单独定期维护，缺乏对多部件系统的智能维护研究，本研究基于强化学习框架对多部件系统进行综合维护，为复杂系统提供合理维护方案。通过双参数指数模型为各部件描述劣化过程，并在维护行为之后采用瞬时提升和劣化递增因子刻画性能影响水平，同时推导了离散状态之间的转移概率，使劣化过程更接近实际。研究具有较大的应用潜力，为飞机发动机多部件系统提供智能维护决策，有效降低维护成本，提高设备安全性。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

发明内容

针对系统部件单独定期维护的不足，本公开的目的在于提供一种基于强化学习的航空发动机双参数指数劣化维护方法。

为实现上述目的，本公开提供以下技术方案：一种基于强化学习的航空发动机双参数指数劣化维护方法包括如下步骤：

步骤1，建立航空发动机的多部件系统劣化状态模型，其为含有随机误差项的双参数指数模型：

，其中，

为常数项，

为以均值

，方差

的正态随机变量，

为以均值

，方差

的正态随机变量，

为随机误差项

的方差，

表示正态分布，

为双参数指数劣化过程；

步骤2，利用状态阈值将部件劣化状态离散化得到离散状态；

步骤3，每次维护行为维护后对部件劣化状态行更新以得到维护后的性能提升水平，更新形式分为瞬时性能提升和维护后的劣化发展两部分，其中，

瞬时性能提升中，对于中级维护状态等级瞬时提升一级，高级维护状态等级提升两级，替换操作则直接将部件劣化状态提升到状态0；

维护后的劣化发展中，通过增加劣化递增因子来实现维护之后部件的劣化发展，

，其中，

为第i次维护时的劣化递增因子，

为第i维护活动之前部件遵循的劣化过程；

步骤4，基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平，构建状态之间的转移概率矩阵

步骤5，基于部件劣化的离散状态构建成状态空间，维护动作构建成动作空间；

步骤6，通过经济成本与停机损失成本建立成本函数，并计算单步奖励值；

步骤7，采用Q-Learning算法以期望奖励最大为优化目标，获得每个劣化部件的离散状态下的最佳维护行为。

所述的方法中，步骤1中，对于不同的部件，双参数指数模型设置不同的模型参数来区别部件之间劣化程度。

所述的方法中，所述状态阈值为三个：

、

和

，将劣化过程划分为5个状态等级其中，三个状态阈值：

、

和

满足：

，将劣化过程划分为5种离散状态，各状态等级划分方式如下：

，其中，

为部件含有随机误差项的双参数指数模型劣化状态。

所述的方法中，步骤3中，所述维护行为分为无维护行为、中级维护、高级维护、替换，每种维护行为在不同离散状态下的性能改变是一定的。

所述的方法中，步骤4中，所述转移概率矩阵的构建建立在双参数指数劣化过程及其维护后的性能改变情况的基础上，当前一次的观测状态为状态0时，下一观测间隔

后的状态转移：

，其中：

为劣化过程的分布函数，

为第i部件从状态0转移到状态1的概率，

当前一次的观测状态为状态1时，采随机变量

来表示状态1的初始退化，该变量位于0~D1之间，满足均匀分布，下一观测间隔

后的状态转移：

，其中：

为劣化过程的分布函数，

为第i 部件从状态1转移到状态2的概率，

为部件的初始退化量。

初始状态为状态2、状态3的状态转移矩阵依此类推。

所述的方法中，步骤5中，所述动作空间与状态空间的建立嵌入强化学习框架，使得在离散状态与动作空间中进行最优决策。

所述的方法中，步骤6中，所述单步奖励值用于构建决策过程中当前状态s或当前状态s下执行维护行为

的期望价值，即：状态价值函数和动作价值函数，

状态价值函数：

，式中：

为第t+1步的单步奖励值，

为衰减系数，

为第t步状态，

为求取期望值，

为状态s下的价值函数，

动作价值函数：

，式中：

为第t+1步的单步奖励值，

为衰减系数，

为第t步状态，

为第t步动作，

为求取期望值，

为状态s下执行维护行为

的价值函数。

所述的方法中，步骤7中，所述最佳状态-维护动作对使得多部件系统的长期维护期望奖励最大，维护过程中同时对系统各个子部件进行观测，根据多个部件的状态组合进行维护。

与现有技术相比，本公开带来的有益效果为：在多部件系统劣化仿真过程中，采用瞬时提升与劣化递增因子刻画维护行为对部件性能的影响水平，有效反映了维护动作执行过程中对部件的积极和消极效果。基于双参数指数劣化模型和维护行为对部件性能的影响，计算部件离散状态下的状态转移概率，建立了指数劣化过程与强化学习离散状态之间的联系，从而模拟真实劣化过程。在强化学习框架内对多部件系统的维护进行决策，获得期望长期奖励最大的状态-维护动作对，可为系统某一瞬时观测的部件状态组合提供维护建议。

附图说明

图1是本公开一个实施例提供的基于强化学习的航空发动机双参数指数劣化维护方法流程图；

图2是本公开一个实施例提供的强化学习框架内的单步奖励实现示意图；

图3是本公开一个实施例提供的多部件系统长期状态转移图。

具体实施方式

下面将参照附图1至图3详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本公开的保护范围当视所附权利要求所界定者为准。

为便于对本公开实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本公开实施例的限定。

一个实施例中，如图1所示，本公开提供一种基于强化学习的航空发动机双参数指数劣化维护方法包括如下步骤：

，其中，

为常数项，

为以均值

，方差

的正态随机变量，

为以均值

，方差

的正态随机变量，

为随机误差项

的方差，

表示正态分布，

为双参数指数劣化过程；

步骤2，利用状态阈值将部件劣化状态离散化得到离散状态；

，其中，

为第i次维护时的劣化递增因子，

为第i维护活动之前部件遵循的劣化过程；

步骤4，基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平，构建状态之间的转移概率矩阵步骤5，基于部件劣化的离散状态构建成状态空间，维护动作构建成动作空间；

步骤6，通过经济成本与停机损失成本建立成本函数，并计算期望奖励值；

步骤7，采用Q-Learning算法以期望奖励最大为优化目标，获得每个部件劣化的离散状态下的最佳维护行为，Q-Learning是强化学习中基于价值的学习算法。

所述的方法的优选实施方式中，步骤1中，对于不同的部件，双参数指数模型设置不同的模型参数来区别部件之间劣化程度。

所述的方法的优选实施方式中，所述状态阈值为三个：

、

和

，将劣化过程划分为5个状态等级。

所述的方法的优选实施方式中，步骤3中，所述维护行为分为无维护行为、中级维护、高级维护、替换，每种维护行为在不同离散状态下的性能改变是一定的。

所述的方法的优选实施方式中，步骤4中，所述转移概率矩阵的构建建立在双参数指数劣化过程及其维护后的性能改变情况的基础上，当前一次的观测状态为状态0时，下一观测间隔

后的状态转移：

，其中：

为劣化过程的分布函数，

为第i部件从状态0转移到状态1的概率，

当前一次的观测状态为状态1时，采随机变量

后的状态转移：

，初始状态为状态2、状态3的状态转移矩阵依此类推。

所述的方法的优选实施方式中，步骤5中，所述动作空间与状态空间的建立嵌入强化学习框架，使得在离散状态与动作空间中进行最优决策。

所述的方法的优选实施方式中，骤6中，所述期望奖励值是在仿真过程中由状态价值函数和动作价值函数根据单步奖励计算得来。

所述的方法的优选实施方式中，步骤7中，所述最佳维护行为使得长期维护经济成本最低的部件状态-维护动作对，该状态-维护动作对同时对系统各个子部件进行观测。

在一个实施例中，维护方法包括以下步骤：

步骤1中，首先建立多部件系统劣化模型，为充分模拟实际劣化过程，采用含有随机误差项的双参数指数模型：

(1)

步骤2中，基于劣化过程，采用三个状态阈值

、

和

将劣化过程划分为5种离散状态，各状态等级划分方式如下：

(2)，

其中，

为部件含有随机误差项的双参数指数模型劣化状态。

步骤3中，将所执行的维护行为分为4种：无维护行为、中级维护、高级维护、替换，分别编号为0、1、2、3。考虑每次维护行为对部件整体性能产生的影响，假设每种维护行为在不同离散状态下的性能改变是一定的，维护行为执行后对劣化轨迹进行更新，分为两部分更新过程：

瞬时性能提升：

维护后部件的性能能够得到瞬时提升，假设对于无维护行为而言，状态等级不变，中级维护状态等级瞬时提升一级，高级维护状态等级提升两级，替换操作则直接将部件健康状态提升到状态0。

维护后的劣化发展：

通过增加劣化递增因子来实现维护之后部件的劣化发展。

(3)

式中，

为第i次维护时的劣化递增因子，当无维护行为时，

，当其他维护等级时，

，具体取值可由经验确定。

步骤4中，基于双参数指数劣化过程及其维护后的性能提升水平，构建状态之间的转移概率矩阵。

当前一次的观测状态为状态0时，下一观测间隔

后的状态转移：

(4)

式中：

为劣化过程的分布函数，

为第i部件从状态0转移到状态1的概率。

当前一次的观测状态为状态1时，采用随机变量

来表示部件i在状态1的初始退化，该变量位于0~D1之间，满足均匀分布。则下一观测间隔

后的状态转移：

(5)

初始状态为状态2、状态3的状态转移矩阵可以此类推。

步骤5中，将部件劣化的离散状态构建成状态空间，维护动作构建成动作空间。

动作空间：

(6)

状态空间：

(7)

式中：

表示系统中部件数量，

表示第i部件执行维护动作编号为k的行为，

表示第i部件的状态编号为k。

步骤6中，通过式(8)计算经济成本与停机损失成本来建立成本函数，并计算期望奖励值。

(8)

式中：

为x维护行为的经济成本，

为x维护行为的停机损失成本，

为单步维护的奖励值，

为单步维护的成本值，

为从成本到奖励的映射函数。

成本计算：

(9)

式中：n为部件数量，

为部件i执行维护行为编号x的次数，

为单次x维护的经济成本，

为单次x维护的停机损失成本。

步骤7中，采用Q-Learning算法以期望奖励最大为优化目标，获得每个部件离散劣化状态下的最佳维护行为。

为进一步阐述所发明内容，图1为根据本发明一种基于强化学习的航空发动机双参数指数劣化系统维护方法的总体结构示意图。通过双参数指数模型对飞机发动机部件进行劣化建模，然后采用状态阈值的方式将部件劣化过程离散化；考虑维护行为对部件性能的影响，通过引入劣化递增因子和瞬时性能提升部分来实现性能的改变，并基于劣化过程与劣化更新过程计算各离散状态之间的转移矩阵；之后将经济成本与停机损失成本共同组成成本函数，构建单步动作奖励，并形成长期期望价值；最后在强化学习框架内完成多部件系统的仿真，采用Q-Learning 算法进行优化，获取系统长期运行时最优的状态-动作对。

图2为是本发明强化学习框架内的单步奖励实现，在部件i当前状态为S下，通过执行策略

从维护动作空间

中选择一个合适的动作

，并以前述计算得到的状态转移概率

转移到下一状态，同时产生单步奖励值。

图3是本发明多部件系统长期状态转移图，图中每个部件的状态转移由图2单部转移串联实现，在T时间步长下对n个部件同时进行维护动作执行，产生劣化状态转移和奖励值。最终采用Q-Learning算法以期望奖励值最大为目标，对状态-动作对进行优化。

本方法首先通过双参数指数模型对飞机发动机部件进行劣化建模，采用状态阈值将部件劣化过程离散化，并计算各离散状态之间的转移矩阵；考虑维护行为对部件性能的影响，通过引入劣化递增因子和瞬时性能提升部分来实现性能的改变；将经济成本与停机损失成本共同组成成本函数，并形成期望价值；最后在强化学习框架内完成多部件系统的仿真，采用 Q-Learning 算法进行优化，获取系统长期运行时最优的状态-动作对。采用本方法可有效模拟飞机发动机多部件系统劣化过程，找到在每个部件离散劣化状态下的最佳维护行为，从而降低由于系统中部件独立定期维护所带来的经济与安全风险。

尽管以上结合附图对本公开的实施方案进行了描述，但本公开的技术方案不局限于不同转速和不同负载两种工况，也包括其他种类的工况。上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本公开权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本公开保护之列。