CN112329337A

CN112329337A - 基于深度强化学习的航空发动机剩余使用寿命估计方法

Info

Publication number: CN112329337A
Application number: CN202011144498.0A
Authority: CN
Inventors: 赵永平; 胡乾坤
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-05

Abstract

本发明提供一种基于深度强化学习的航空发动机剩余使用寿命估计方法，根据航空发动机寿命估计的需求和特点，将其视为一种序列性的决策问题，因此建立对应的马尔可夫决策过程模型。针对此马尔可夫模型，制定了状态动作奖赏等交互规则，同时设计了寿命估计奖励函数，并且根据航空发动机寿命估计数据的特点，提出了寿命估计策略的深度学习模型。最后，利用深度强化学习算法，在此马尔可夫模型中学得最优的航空发动机寿命估计估计策略。本发明克服了传统的监督学习方法所带来的过拟合风险，有利于求得更优的航空发动机寿命估计策略，可以提高航空发动机寿命估计的准确度，改善视情维修的及时性，增强飞机飞行的安全性，节省不必要的维护费用。

Description

基于深度强化学习的航空发动机剩余使用寿命估计方法

技术领域

本发明针对航空发动机剩余使用寿命估计领域，首先将航空发动机剩余使用寿命估计问题建模为马尔可夫序列决策过程模型，然后利用深度强化学习(DeepReinforcement Learning)算法求得最优的剩余使用寿命估计策略，从而提高航空发动机剩余使用寿命估计的准确度。

背景技术

由于老化或其他突发状况，当代的工业系统有时会发生严重的故障。因此机器的维护管理在现代工业活动中起着关键的作用。视情维修(Condition-based Maintenance,CBM)作为一种高效的维护策略，已经被广泛应于现代的工业系统中。预断学(Prognostics)作为CBM实施的关键推动力，在CBM中起着重要的作用。预断技术通常备被用来分析所收集到的机器状况监控数据(Condition Monitoring,CM)。通过对CM数据的分析，机器的潜在故障信息可以被提前诊断出，因此可以安排适当及时的维修。CBM可以用来避免发生灾难性的错误，并且减少不必要的维修损失。在预断学中，一个关键性的技术即是对机器的剩余使用寿命进行估计(remaining useful life,RUL)。RUL表示机器距离发生故障或失效所剩余的使用时间。只要准备的预估出RUL的数值，则机器的故障时间可以提前准确的预知，相应的维修计划也可以及时得到安排。因此一个准确的剩余使用寿命估计模型可以提高系统的可靠性，改善机器维护的高效性，并且节省不必要的经济损失。由于其种种优点以及重要性，剩余使用寿命估计已经吸引了许多研究兴趣。

通常，目前存在的剩余使用寿命估计的方法可以分为三类：1)基于模型的方法。2)句驱动的方法。3)混合方法。若给出准确地物理系统退化过程模型，基于模型的方法可以准确的预估出剩余使用寿命值。然而，这种建模需要大量的对物理系统的先验知识，然而这些先验知识在实际过程中通常难以获得。另一方面，数据驱动的方法可以直接学习到机器的状态监控数据与剩余使用寿命之间的映射关系。在数据驱动方法中，无需关于机械系统的先验知识。并且随着传感器技术的发展，可以收集越来越多的机器监控数据。因此，基于数据驱动的方法目前在剩余使用寿命领域越来越受欢迎。

机器学习算法具有较强的泛化能力。近些年来，在数据驱动方法领域，越来越多的机器学习法被用来学习剩余使用寿命与机器监控数据之间的映射关系。例如，在2016年，支持向量回归(Support Vector Regression,SVR)算法被用来进行剩余使用寿命估计。在2016年，卷积神经网络(Convolutional Neural Networks,CNN)被用来进行剩余使用寿命估计方法的研究。同样在2016年，随机森林(Random Forest(RF))，梯度提升(GradientBoosting,GB)，极限学习机(Extreme Learning Machine,ELM)算法，多层感知机(Multi-layer Perceptron,MLP)，深度置信神经网络(Deep Belief Network,DBN)算法，被应用于剩余使用寿命估计。在2016年，多目标进化算法集成的深度置信神经网络被提出，用于剩余使用寿命估计。在2017年，长短时记忆神经网络(Long Short-Term Memory networks,LSTM)被应用于剩余使用寿命估计。在2018年，双向的LSTM神经网络被应用于使用寿命估计。在2019年，CNN混合LSTM被提出应用于剩余使用寿命估计。在2020年，双向门循环单元和CNN的混合算法被提出，并成功应用于航空发动机寿命估计领域，取得了优异的效果。

虽然许多机器学习的算法被应用于剩余使用寿命估计领域，但他们都属于监督学习算法的范畴，遵循相同的学习模式。在这种训练模式下，通过拟合训练集数据，来学习到一个剩余使用寿命估计模型，从而用于生产环境中的剩余使用寿命估计问题。但监督学习普遍存在过拟合的风险，因此为了避免过拟合，只能早停或其他的防治过拟合的策略，然而，这种处理方式会阻止对更优的剩余使用寿命估计策略的探索与发现。因此目前的机器学习算法，在航空发动机寿命估计领域存在一定的性能缺陷。作为机器学习算法的另一个分支，强化学习在未知环境探索中有着强大的能力。不同于监督学习算法，基于标签化的训练集学得一个剩余使用寿命估计模型，深度强化学习从未知环境中通过试错，逐步学得一个具有较强泛化性的策略。近些年来强化学习已经应用于许多交叉领域。

深度强化学习(Deep Reinforcement Learning,DRL)算法由Google DeepMind团队提出，是强化学习和和深度学习的一种结合。自提出以来，深度强化学习被广泛应用游戏、机器人控制以及金融等领域。深度强化学习通过与环境模型的交互，逐渐学得最优的控制策略。近年来深度强化学习已经成功解决了许多之前挑战性的序列性决策问题。例如，Mnih等提出了基于卷积神经网络的深度强化学习，并直接从游戏画面的高维输入中成功学习了控制策略。目前关于将深度强化学习应用于航空发动机剩余使用寿命估计领域的方法研究尚属空白。大部分的数据驱动方面的研究还是局限于监督学习算法领域。因此目前的方法存在一定的过拟合风险，会引起一定的性能缺陷。

发明内容

发明目的：

为了突破当前剩余使用寿命估计领域的基于数据驱动算法中，仅采用监督学习方法存在的局限，本发明将深度强化学习引入到航空发动机剩余使用寿命估计领域。针对航空发动机剩余使用寿命估计任务，首先将该估计问题建模为马尔可夫序列决策过程模型，然后利用深度强化学习算法求得最优的剩余使用寿命估计策略，从而提高航空发动机剩余使用寿命估计的准确度。

技术方案：

一种基于深度强化学习的航空发动机剩余使用寿命估计方法，包括以下步骤：

步骤1：收集航空发动机状态监控传感器数据以及对应的剩余使用寿命值，并对原始数据进行归一化。每个数据样本为一个数据对，其中包括传感器参数数据以及对应的航空发动机剩余使用寿命值。对收集到的航空发动机剩余使用寿命数据随机编号，组成带编号的航空发动机剩余使用寿命历史数据库。传感器监控数据主要包括21种数据，分别为：风扇进口总温、低压压气机出口总温、高压压气机出口总温、低压涡轮出口总温、风扇进口压力、外涵道总压、高压压气机出口总压、风扇物理转速、核心机物理转速、发动机压比、高压压气机出口静压、耗油率与高压压气机出口静压之比、修正风扇转速、修正核心机转速、外涵比、燃烧室油气比、抽气焓、额定风扇转速、额定修正风扇转速、高压涡轮冷却气抽气量、低压涡轮冷却气抽气量。航空发动机剩余使用寿命值为大于0的整数，表示发动机剩余使用周期。

步骤2：基于步骤1所建立的航空发动机剩余使用寿命历史数据库，对传统的航空发动机剩余使用寿命估计过程，建立其对应的马尔可夫决策过程模型，该马尔可夫模型主要包括以下内容：

1)状态：发动机寿命估计模型的状态量s_t即为发动机传感器数据样本，包括上述的21种航空发动机可测参数。

2)初始状态：初始状态即为航空发动机剩余使用寿命数据库中，第一个样本的传感器数据值。

3)动作：动作值a_t即为对发动机传感器故障数据所作的剩余使用寿命估计值，为大于0的实数。

4)奖励函数：奖励值r_t表征当前的航空发动机寿命估计策略，对当前样本所作剩余使用寿命估计的准确度，定义如下：

其中t表示当前时刻，

表示当前样本的实际剩余使用寿命值。

5)状态转移概率：在航空发动机剩余使用寿命估计马尔可夫决策过程模型中，状态转移概率P(s_t+1|s_t,a_t)为确定值，即马尔可夫环境按照航空发动机剩余使用寿命数据库中的样本顺序，由当前样本s_t转移到下一样本s_t+1。

6)剩余使用寿命估计策略π_θ：策略π_θ实现对当前航空发动机传感器数据样本剩余使用寿命的估计。本发明使用深度学习模型来构建剩余使用寿命估计策略，输出值即为当前样本的剩余使用寿命值。

7)终止：当马尔可夫模型转移到航空发动机剩余使用寿命数据库中的终止状态是，当前估计交互任务终止，返回终止信号Terminal。

步骤3：初始化航空发动机寿命估计策略深度学习模型，本发明使用的深度学习模型为卷积神经网络与全连接神经网络模型(Fully Connected Networks,FCN)的组合模型。如图1所示，当前的发动机状态监控数据(s_t)输入航空发动机寿命估计深度学习模型，依次经过CNN、FCN层处理，最后输出控制策略数据，或者值函数。

本发明所提供的航空发动机寿命估计深度学习模型中，共有两个CNN层，每层包括一个卷积层和一个池化层。因此CNN模型由两层卷积(Convolution)层、两层最大池化层(Max-pooling)组成。CNN中的卷积层运算定义为：

z_i＝tanh(I*f_i+b_i) (7)

其中I为输入矩阵，*表示卷积操作，f_i表示第i个卷积层，b_i表示卷积层中的误差项。在本发明使用的CNN层中，采用了tanh激活函数。假设卷积层由F个过滤器组成，则输出即为Z＝[z₁,z₂,…,z_F]。最大池化层的运算操作定义为：

g_i＝MaxPooling(P_i) (8)

意味着在矩阵中取最大值。P_i是卷积层输出的矩阵。CNN层的输出，输出到FCN层中，经过全连接运算，即可得到相应的输出。最后初始化迭代次数i＝0，最大迭代次数N，航空发动机寿命估计数据总数n。

步骤4：初始化交互步数t＝0。

步骤5：根据当前的航空发动机寿命估计策略深度学习模型，对当前接收到的航空发动机传感器特征数据进行一次剩余使用寿命估计，根据剩余使用寿命估计值以及实际剩余使用寿命值，马尔可夫模型给出相应的奖励值。并将当前估计交互数据存储，估计交互数据包括：当前的状态、执行剩余使用寿命估计值、奖励值。并判断是都已经到达终止状态：t≥n？，若满足条件，则进行下一步，否则继续与航空发动机寿命估计马尔可夫模型进行估计交互。

步骤6：基于最新的n步剩余使用寿命估计交互数据，使用深度强化学习算法，对当前的剩余使用寿命估计策略深度学习模型进行更新，并增加迭代次数：i＝i+1。判断i≥N？，若满足条件则终止训练，否则返回步骤4继续训练。本发明所采用的深度强化学习算法为Proximal Policy Optimization(PPO)算法。将由深度学习模型表示发动机控制策略记为π_θ，其中θ表示该神经网络的所有权重系数。则使用PPO算法，θ更新公式如下：

其中L^CLIP是PPO算法中的替代性目标函数，定义如下：

其中

表示在状态s采取动作a的优势值。∈是一个超参数，表示策略更新的上限。clip函数将策略更新限制在1-∈和1+∈之间。在PPO算法中，

基于值函数V_μ(s_t)计算而得。V_μ(s_t)同样是由深度学习模型所表示。V_μ(s_t)表示是马尔可夫模型中的期望返回奖励值，μ表示深度学习模型的所有超参数。值函数的更新通过梯度下降算法，最小化以下均方根误差：

其中

代表累计奖励值。

有益效果：

通过将传统的航空发动机剩余使用寿命估计问题，建立对应的马尔可夫决策过程模型，可以使用深度强化学习来学习得最优的航空发动机剩余使用寿命估计策略。本发明所提供的方法避免了传统基于监督学习算法的航空发动机寿命估计算法中所存在的过拟合以及性能缺陷问题。同时本发明所提供的方法具有较强的泛化性，在实际使用过程中，可以提供更准确的剩余使用寿命估计精度。

附图说明

图1为航空发动机剩余使用寿命估计深度学习模型；

图2为航空发动机剩余使用寿命估计马尔可夫决策过程图；

图3为训练发动机传感器数据分布图；

图4为原始数据归一化效果图；

图5为测试发动机剩余使用寿命估计效果曲线。

具体实施例

本实施例采用航空发动机传感器状态监控数据，该数据由21个传感器收集而得，主要包括：风扇进口总温、低压压气机出口总温、高压压气机出口总温、低压涡轮出口总温、风扇进口压力、外涵道总压、高压压气机出口总压、风扇物理转速、核心机物理转速、发动机压比、高压压气机出口静压、耗油率与高压压气机出口静压之比、修正风扇转速、修正核心机转速、外涵比、燃烧室油气比、抽气焓、额定风扇转速、额定修正风扇转速、高压涡轮冷却气抽气量、低压涡轮冷却气抽气量。

发动机的原始传感器数据集分布如图3所示。在使用本发明所提供的基于深度强化学习的航空发动机剩余使用寿命估计方法之前，首先对原始传感器数据进行归一化处理。归一化处理公式定义如下：

其中x^(m,f)为原始数据，

为归一化后的数据，m表示M个可能的发动机失效退化故障原因，f表示第f个传感器数据。μ^(m,f)和σ^(m,f)分别表示原始数据分布的均值和方差。归一化数据和未归一化数据的对比如图4所示，可以看出，经过归一化后的数据显示出明显的蜕化趋势。

将归一化处理后的数据随机编号，组成带编号的航空发动机剩余使用寿命历史数据库。基于该数据库，对传统的航空发动机剩余使用寿命估计过程，建立其对应的马尔可夫决策过程模型，该马尔可夫决策过程的交互如图2所示。初始化航空发动机寿命估计策略深度学习模型。每交互n步则使用PPO算法对当前的航空发动机寿命估计策略深度学习模型进行更新，记该策略模型为π_θ，其中θ表示该神经网络的所有权重系数。则使用PPO算法，θ更新公式如下：

其中L^CLIP是PPO算法中的替代性目标函数，定义如下：

经过更新N步后，即可学习到最优的航空发动机寿命估计策略。为了评估所学的策略的剩余使用寿命表现效果，采用均方误差判据(Root mean squared error,RMSE)，其定义如下：

其中T表示测试集的样本数，d_i＝RUL_i-RUL_i表示剩余使用寿命的估计值与实际值之间的误差。将本发明所提高方法取得的效果与传统的监督学习方法作对比，对比结果如表1所示，其中DRLRULe即为本发明所提供的方法。表中斜体粗体下划线表示的分数代表第一名。斜体粗体表示的分数代表第二名。由结果对比可以看出，相比于其他传统的监督学习算法，本发明所提供的方法取得了优异的剩余使用寿命估计效果。

为了直观显示学得的剩余使用寿命估计策略的表现，本次实验挑选了四台测试发动机的传感器数据值，使用学得的剩余使用寿命估计策略对其进行估计。如图5所示，估计而得的剩余使用寿命与实际值非常吻合，而且精度较高。因此本发明所提供的方法可以提高剩余使用寿命估计的精度。

表1剩余使用寿命估计效果对比

Claims

1.一种基于深度强化学习的航空发动机剩余使用寿命估计方法，其特征在于，包括如下步骤：

步骤1：收集航空发动机状态监控传感器数据以及对应的剩余使用寿命值，组成航空发动机剩余使用寿命历史数据库；

步骤2：基于步骤1中的航空发动机剩余使用寿命历史数据库，对传统的航空发动机剩余使用寿命估计过程，建立其对应的马尔可夫决策过程模型；

步骤3：初始化航空发动机寿命估计策略深度学习模型，迭代次数i＝0，最大迭代次数N，航空发动机寿命估计数据总数n；

步骤4：初始化交互步数t＝0；

步骤5：根据当前的航空发动机寿命估计策略深度学习模型，对当前接收到的航空发动机传感器特征数据进行一次剩余使用寿命估计，根据剩余使用寿命估计值以及实际剩余使用寿命值，马尔可夫模型给出相应的奖励值；并将当前估计交互数据存储，并判断是都已经到达终止状态：t≥n？，若满足条件，则进行下一步，否则继续与航空发动机寿命估计马尔可夫模型进行估计交互；

步骤6：基于最新的n步剩余使用寿命估计交互数据，使用深度强化学习算法，对当前的剩余使用寿命估计策略深度学习模型进行更新，并增加迭代次数：i＝i+1，判断i≥N？，若满足条件则终止训练，否则返回步骤4继续训练。

2.根据权利要求1所述的一种基于深度强化学习的航空发动机剩余使用寿命估计算法，其特征在于，步骤1中的航空发动机状态监控传感器数据包括21种航空发动机可测参数，分别为：风扇进口总温、低压压气机出口总温、高压压气机出口总温、低压涡轮出口总温、风扇进口压力、外涵道总压、高压压气机出口总压、风扇物理转速、核心机物理转速、发动机压比、高压压气机出口静压、耗油率与高压压气机出口静压之比、修正风扇转速、修正核心机转速、外涵比、燃烧室油气比、抽气焓、额定风扇转速、额定修正风扇转速、高压涡轮冷却气抽气量、低压涡轮冷却气抽气量。

3.根据权利要求2所述的一种基于深度强化学习的航空发动机剩余使用寿命估计算法，其特征在于，步骤2中，针对航空发动机剩余使用寿命估计过程，建立其对应的马尔可夫决策过程模型，包括以下内容：

1)状态：发动机寿命估计模型的状态量s_t即为发动机传感器数据样本，包括所述的21种航空发动机可测参数；

2)初始状态：初始状态即为航空发动机剩余使用寿命数据库中，第一个样本的传感器数据值；

3)动作：动作值a_t即为对发动机传感器故障数据所作的剩余使用寿命估计值，为大于0的实数；

其中t表示当前时刻，

表示当前样本的实际剩余使用寿命值；

5)状态转移概率：在航空发动机剩余使用寿命估计马尔可夫决策过程模型中，状态转移概率P(s_t+1|s_t,a_t)为确定值，即马尔可夫环境按照航空发动机剩余使用寿命数据库中的样本顺序，由当前样本s_t转移到下一样本s_t+1；

6)剩余使用寿命估计策略π_θ：策略π_θ实现对当前航空发动机传感器数据样本剩余使用寿命的估计；

4.根据权利要求1所述的一种基于深度强化学习的航空发动机剩余使用寿命估计算法，其特征在于，步骤3中的深度学习模型为卷积神经网络及全连接神经网络的组合模型，当前的发动机状态监控数据s_t输入航空发动机寿命估计深度学习模型，依次经过卷积神经网络、全连接神经网络处理，最后输出控制策略数据或者值函数。

5.根据权利要求1所述的一种基于深度强化学习的航空发动机剩余使用寿命估计算法，其特征在于，步骤6中采用的深度强化学习算法为PPO算法，具体步骤包括：将由深度学习模型表示发动机控制策略记为π_θ，其中θ表示该神经网络的所有权重系数，则使用PPO算法，θ更新公式如下：

其中

是在根据策略

采取动作所获的期望奖励值，L^CLIP是PPO算法中的替代性目标函数，定义如下：

其中

表示在状态s采取动作a的优势值，∈是一个超参数，表示策略更新的上限，clip函数将策略更新限制在1-∈和1+∈之间；

在PPO算法中，

基于值函数V_μ(s_t)计算而得，V_μ(s_t)同样是由深度学习模型所表示，V_μ(s_t)表示是马尔可夫模型中的期望返回奖励值，μ表示深度学习模型的所有超参数，值函数的更新通过梯度下降算法，最小化以下均方根误差：

其中

代表累计奖励值。

6.根据权利要求5所述的一种基于深度强化学习的航空发动机剩余使用寿命估计算法，其特征在于，步骤5中的动作a通过正态分布采样而得，记μ(s_t)＝π_θ(s_t)，为高斯分布的均值，π_θ(s_t)即为当前深度学习剩余使用寿命估计策略的输出值，在每一个交互时刻，动作值a_t由下式计算而得：

a_t＝μ(s_t)+σ(s_t)⊙z (5)

其中⊙表示两个向量之间的点积，σ(s_t)表示正态分布的标准差，在PPO算法中通常取作常量，

为噪声向量，是由标准高斯分布采样而得。