CN117371331A

CN117371331A - 基于kddin的航空发动机剩余寿命预测方法

Info

Publication number: CN117371331A
Application number: CN202311427520.6A
Authority: CN
Inventors: 汪永超; 徐超; 李锋; 李世昌; 李翰儒
Original assignee: Industrial Technology Research Institute Of Yibin Sichuan University; Sichuan University
Current assignee: Industrial Technology Research Institute Of Yibin Sichuan University; Sichuan University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-09

Abstract

本发明公开了一种基于KDDIN的航空发动机剩余寿命预测方法，包括以下步骤：S1、将传感器采集到的数据集进行归一化；S2、将归一化后的数据划分为旧训练集、旧验证集、新训练集、新验证集；S3、建立KDDIN网络，KDDIN采用教师—学生知识蒸馏架构，包括教师模型和学生模型；S4、使用旧训练集和旧验证集训练和保存教师模型；S5、使用保存好的教师模型、新训练集和新验证集训练和保存学生模型；S6、利用学生模型完成航空发动机剩余寿命预测。由于KDDIN得到的参数量较少复杂度较低的学生模型保留了教师模型的经验知识，能够解决灾难性遗忘问题和实际部署问题，实现对航空发动机的剩余寿命进行准确、稳定地预测。

Description

基于KDDIN的航空发动机剩余寿命预测方法

技术领域

本发明涉及一种基于KDDIN的航空发动机剩余寿命预测方法。

背景技术

随着现代大型设备复杂性和集成度的不断提高，故障预测和健康管理技术(Prognostics and Health Management,PHM)对于满足设备可持续安全性的需求变得越来越重要。PHM其中的一个关键部分是剩余使用寿命(Remaining Useful Life,RUL)预测，它能够降低工业系统的维护成本，提高工业设备的可靠性和安全性。航空发动机是飞机设备中重要的组成部分，它利用燃料为飞机提供推进力和电力。发动机的性能和可靠性直接影响着飞机的运行效率、航程、燃油消耗以及乘客和机组人员的安全。因此，航空公司会定期从各种内置传感器收集数据，以监测性能并避免故障发生。多年来，收集的信息量不断增加，这为进行更复杂的分析铺平了道路。

目前，RUL的预测方法可以大致分为两类，分别为基于物理模型的预测方法和数据驱动的预测方法。基于物理模型的预测方法的核心思路是显式地对监测数据和RUL之间的关系进行建模。但是随着传感器技术和数据存储与传输技术的快速发展，测量得到的监测数据日益复杂，显式建模变得非常困难。基于数据驱动的预测方法的核心思路是建立监测数据与剩余寿命之间的隐藏逻辑来实现RUL预测。相比于前者，基于数据驱动的方法无需大量的先验信息和较高的物理模型构建能力。传统的机器学习算法作为常见的数据驱动方法之一，例如支持向量机、随机森林和决策树等广泛应用于RUL预测。然而，这些方法依赖于繁重的特征工程，尤其是基于领域知识的手动组合特征，适用能力不强。近年来，随着深度学习方法的广泛传播，基于深度学习的数据驱动方法在科研和工程领域的关注度也越来越高。Cao等强调旋转机械的时域—频域分析，构建了复杂域扩展网络和多通道信息融合预测框架运用于RUL轴承预测。Liu等设计了矢量动态加权融合算法评估退化特征随着时间推移的敏感性，根据得到的权重迭代消除不敏感特征，从而提高预测精度。Park等提出基于伪标签向量的时空注意机制算法来捕捉时空序列之间的相关性，从而筛选出与RUL高度相关的特征以便于减少计算成本。基于深度学习的数据驱动方法在很大程度上不依赖与研究对象相关的专业知识，输入传感器监测数据就能进行RUL预测，在工业设备和关键零部件的RUL预测问题上效果显著。

上述列举的这些方法都是通过不断地增加相应的功能模块，使得模型的复杂度和参数量急剧增长，来换取更高的RUL预测准确率，同时他们提出的方法在接收到新数据时，重新训练后的模型会拟合新数据，不再适用于历史数据。然而在许多实际工业场景中，RUL预测算法需要部署在计算资源有限的边缘设备上以便及时响应安全问题，还要考虑在数据扩充时同时适配新数据和旧数据。因此，业界期望的是可以精确实现RUL预测并且能实际部署在设备上的学习算法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能够实现对航空发动机的剩余寿命进行准确、稳定地预测的基于KDDIN的航空发动机剩余寿命预测方法。

本发明的目的是通过以下技术方案来实现的：基于KDDIN的航空发动机剩余寿命预测方法，包括以下步骤：

S1、将传感器采集到的数据集进行最大值—最小值归一化，将数据的范围设置在[0,1]，公式如下：

式中x′表示归一化之后的数据，x表示归一化之前的数据，min(x)、max(x)分别表示数据的最小值和最大值；

S2、将归一化后的数据划分为旧训练集、旧验证集、新训练集、新验证集；并为数据添加寿命标签，添加的寿命标签使用分段线性退化函数处理并进行归一化；接着使用滑动时间窗口处理4个数据集；

S3、建立KDDIN网络，KDDIN采用教师—学生知识蒸馏架构，包括教师模型和学生模型；

S4、使用旧训练集和旧验证集训练和保存教师模型；

S5、使用保存好的教师模型、新训练集和新验证集训练和保存学生模型；

S6、利用学生模型完成航空发动机剩余寿命预测。

所述教师模型具体处理过程为：

A、利用LSTM对输入数据进行特征提取：LSTM包括输入门、遗忘门、输出门和候选记忆单元；其中，输入门负责决定要将多少新信息纳入到记忆中，遗忘门负责控制前一时刻的记忆是否被保留，输出门则确定当前时刻的隐藏状态和输出，候选记忆单元则基于前一状态的记忆和当前输入计算出新的候选记忆；具体表示为：

F_t＝σ(W_f[H_t-1,X_t]+b_f) (1)

I_t＝σ(W_i[H_t-1,X_t]+b_i) (2)

C_t＝tanh(W_c[H_t-1,X_t]+b_c) (3)

O_t＝σ(W_o[H_t-1,X_t]+b_o) (5)

式中，X_t是时间步t的输入，H_t-1和C_t-1是前一时间步的隐状态和记忆元，C_t和H_t是时间步t的记忆元和隐状态，F_t、I_t、C_t和O_t分别表示遗忘门、输入门、候选记忆元和输出门；W_f、W_i、W_c和W_o是权重；b_f、b_i、b_c和b_o是权重是偏置；是乘法运算，σ和tanh分别是sigmoid型激活函数和tanh双曲正切函数；

B、将LSTM的输出通过自注意力机制进行合并：假设LSTM网络针对一个样本学习的特征表示为H＝{H₁,H₂,…,H_i,…,H_m}^T，上标T表示转置；其中n是特征的连续步骤的数量；使用自注意机制，第i个输入H_i的重要性P_i表示为：

P_i＝Φ(W^TH_i+b) (7)

式中，W和b分别是权重矩阵和偏置向量，Φ()是得分函数；

在获得第i个特征向量的分数之后，使用softmax函数对第i个输入H_i的重要性P_i进行归一化：

最后得到自注意力机制的最终输出特征O表示为：

式中Q＝{Q₁,Q₂,…,Q_i,…,Q_m}^T；

C、使用全连接层将自注意力机制输出的特征进行回归处理，得到表示寿命标签的最终预测结果。

学生模型的训练步骤如下：

(1)导入滑动时间窗口处理好的旧训练集数据和寿命标签；

(2)设置优化器和损失函数，损失函数选用均方差损失函数；

(3)设置训练次数和截停函数；

(4)对教师模型进行训练，每次训练完成都使用旧验证集数据进行验证，得到一个验证均方差，当验证均方差连续10次不再下降时触发截停函数，停止训练并保存验证均方差最小的网络参数；若一直没有触发截停函数则达到训练次数后，选择验证均方差最小的网络参数。

所述学生模型具体处理过程为：

a、利用卷积神经网络对输入数据进行特征提取；

b、利用变分自编码器捕捉数据的关键特征；假设变分自编码器的输入数据是x，经过编码器进行编码后得到的潜在特征为z，则变分自编码器将输入数据压缩成潜在向量并形成新的数据表示为：

p(x)＝∫p(x|z)p(z)dz (10)

式中，p(x|z)为解码器将潜在变量z映射为观测值x的概率分布，p(z)为潜在变量z的先验概率分布，积分表示对所有可能的潜在变量取值进行求和，从而得到观测值x概率分布；

通过最大化对数似然的下界来解决公式(10)的积分；根据Jensen不等式得出的数据x的变化下界为：

式中，φ和θ是优化目标，分别为编码器和解码器的参数，p_θ(x|z)是基于高斯分布中采样得到的，称为生成分布，表示重构误差，q_φ(z|x)为近似后验分布，p_θ(z)为先验分布，D_KL(q_φ(z|x)||p_θ(z))表示二者之间的KL散度；第一项是x的重构，q_φ(z|x)通过编码器进行建模，输出为多元高斯分布，然后从q_φ(z|x)采样得到对数似然logp_θ(x|z)，进而通过最大化log p_θ(x|z)重构x；第二项是潜在特征z的正则化，通过最小化z的近似后验与先验分布之间的KL散度来正则化z；

c、利用解码器对提取的关键特征进行解码，解码器设计为线性层；

d、使用全连接层将输出特征进行处理，得到表示寿命标签的最终预测结果。

教师模型的训练步骤如下：

(1)导入滑动时间窗口处理好的新训练集数据和寿命标签；

(2)设置优化器和损失函数，损失函数采用复合损失函数；

(3)设置训练次数和截停函数；

(4)对学生模型进行训练，每次训练完成都使用新验证集数据进行验证，验证完会得到一个验证均方差，当验证均方差连续10次不再下降时触发截停函数，停止训练并保存验证均方差最小的网络参数；若一直没有触发截停函数则达到训练次数后，选择验证均方差最小的网络参数。

所述复合损失函数计算方法为：

软损失L_软定义为式(12)中学生模型的预测值和教师模型的预测值/>之间的均方差，硬损失L_硬定义为式(13)中学生模型的预测值和真实标签值y之间的均方差。

式中，j是一次性输入到网络的训练样本的数量；

引入余弦相似度损失函数作为特征损失，形式如下：

L_特征＝|cos(f_t-f_s)| (14)

式中f_t是教师模型输出的特征向量，f_s是学生模型输出的特征向量；

引入KL散度作为KL损失，KL损失表示为：

L_KL＝D_KL(q_φ(z|x)||p_θ(z)) (15)

复合损失函数表示为：

L_总＝αL_硬+βL_软+ωL_特征+κL_KL (16)

式中，α，β，ω和κ为超参数。

本发明的有益效果是：本发明在KDDIN中通过引入注意力机制构建了一个预测能力较强的教师模型，引入VAE构建了一个特征提取能力强、参数量较少、模型复杂度较低的学生模型，构建了一个复合损失函数以表征学生模型对教师模型知识的吸收能力以及对新数据集的适应能力。由于KDDIN得到的参数量较少复杂度较低的学生模型保留了教师模型的经验知识，使得基于KDDIN的航空发动机剩余寿命预测方法能解决灾难性遗忘问题和实际部署问题，以及较好地适应新数据。能够实现对航空发动机的剩余寿命进行准确、稳定地预测。

附图说明

图1是本发明的总体框架图；

图2是LSTM的结构图；

图3是教师模型结构图；

图4是学生模型结构图；

图5是损失函数示意图；

图6是预测结果对比图。

具体实施方式

为了解决模型复杂度高的预测模型难以实际部署在资源有限的边缘设备上，以及在接收到新数据时，重新训练后的模型会拟合新数据，不再适用于历史数据的问题发明了基于知识蒸馏数据增量网络(Knowledge Distillation Data Incremental Network,KDDIN)的航空发动机剩余寿命预测方法，目的是相比复杂的神经网络，能得到一个参数量较少、复杂度较低以及能实际部署在边缘设备的网络模型，同时解决灾难性遗忘问题和获得适应新数据的能力，以实现对航空发动机的剩余寿命进行准确、稳定地预测。知识蒸馏通过利用教师模型的知识来训练轻量高效的学生模型，适用于计算资源受限场景中。增量学习方法通过不断学习新数据来获取新知识，同时保留并整合了之前已学习的知识。结合知识蒸馏和增量学习各自的优势，本发明提出了一种知识蒸馏数据增量网络，在预测网络中引入知识蒸馏对预测能力较强教师模型进行压缩，获得预测能力相当的但参数量较少复杂度较低的学生模型，同时引入增量学习来避免灾难性遗忘，使学生模型在历史数据和新数据上表现一样良好。基于KDDIN的方法在航空发动机RUL预测上获得了较好的效果。

本发明首先在KDDIN中，设计了一个预测能力较强的教师模型，使用旧数据集将其训练好，为知识蒸馏做准备；然后设计一个参数量少、复杂度低的用于实际预测的学生模型，使用新数据集进行训练，并且用于实际预测；最后构建一个复合损失函数，以最大化学生模型对教师模型知识的吸收能力以及对新数据集的适应能力。由于KDDIN得到的参数量较少复杂度较低的学生模型保留了教师模型的经验知识使得基于KDDIN的航空发动机剩余寿命预测方法能解决灾难性遗忘问题和实际部署问题以及较好地适应新数据。

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的基于KDDIN的航空发动机剩余寿命预测方法，包括以下步骤：

S2、将归一化后的数据划分为旧训练集、旧验证集、新训练集、新验证集和测试集；

根据2个训练集和2个验证集自身的时序关系，在最后添加寿命标签。添加的寿命标签使用分段线性退化函数处理。分段线性退化函数表示为：

式中，M表示寿命上限，x表示当前数据所处循环周期，n表示寿命拐点，假设N表示发动机最大循环周期数，则n＝N-M。为了提升训练效率，处理好的寿命标签同样采取归一化处理。接着使用滑动时间窗口处理5个数据集，用于KDDIN的输入数据。将旧训练集输入教师模型进行训练，使用旧验证集评估教师模型以便保存最优参数的教师模型。在学生模型的训练过程中，保持教师模型的参数不变，并将其用作引导学生模型学习和优化的参考。最后将新训练集输入学生模型进行训练，目标是使损失函数最小化，使用新验证集评估学生模型以便保存最优参数的学生模型。本发明中的学生模型通过蒸馏训练以后预测能力能赶上教师模型，并且由于其自身参数量少的特点，才有可能部署在计算资源有效的边缘设备上。最后将滑动时间窗口处理好测试集输入保存好的学生模型，得到的输出结果乘以M就是航空发动机的剩余寿命。

S3、建立KDDIN网络，KDDIN采用教师—学生知识蒸馏架构，包括教师模型、学生模型和损失函数三个部分；

S4、使用旧训练集和旧验证集训练和保存教师模型；如图3所示，教师模型具体处理过程为：

A、利用LSTM对输入数据进行特征提取：循环神经网络(Recurrent NeuralNetwork,RNN)具有时序记忆和参数共享能力，可以捕捉序列中的长期依赖关系，能够通过记忆前面的输入来帮助预测后续输出，适用于语言模型、机器翻译、音频处理等任务。然而，在训练过程中，RNN容易遇到梯度消失或梯度爆炸的问题，长时间依赖关系导致梯度难以传播从而导致模型难以学习到距离较远的信息。其变体网络长短时记忆网络(Long Short-Term Memory Network,LSTM)克服了这一缺点，所以本发明选择LSTM构建教师模型。

一个典型的LSTM循环单元如图2所示，LSTM包括输入门、遗忘门、输出门和候选记忆单元；其中，输入门负责决定要将多少新信息纳入到记忆中，遗忘门负责控制前一时刻的记忆是否被保留，输出门则确定当前时刻的隐藏状态和输出。候选记忆单元则基于前一状态的记忆和当前输入计算出新的候选记忆。具体表示为：

F_t＝σ(W_f[H_t-1,X_t]+b_f) (1)

I_t＝σ(W_i[H_t-1,X_t]+b_i) (2)

C_t＝tanh(W_c[H_t-1,X_t]+b_c) (3)

O_t＝σ(W_o[H_t-1,X_t]+b_o) (5)

B、将LSTM的输出通过自注意力机制进行合并；LSTM对于超过其记忆单元容量的长期依赖关系仍然无法有效建模；LSTM缺乏直接给出输入序列不同部分重要性权重的能力，这使得网络难以确定哪些部分对于寿命预测更为重要，可能导致性能下降。为了克服这些局限，本发明引入自注意力机制。自注意力机制能够帮助网络集中关注输入序列中的重要信息，从而提高预测准确性。它通过加权表示不同位置或特征的重要程度，使网络能够自动学习到对于寿命预测更为关键的部分。利用PyTorch中的permute()方法对LSTM输出张量的维度顺序进行重新排列，以便后续分配权重和应用softmax函数，然后通过线性层获得第第i个输入H_i的重要性P_i：假设LSTM网络针对一个样本学习的特征表示为H＝{H₁,H₂,…,H_i,…,H_m}^T，上标T表示转置；其中n是特征的连续步骤的数量；使用自注意机制，第i个输入H_i的重要性P_i表示为：

P_i＝Φ(W^TH_i+b) (7)

式中，W和b分别是权重矩阵和偏置向量，Φ()是得分函数，可以被设计为神经网络中的激活函数，比如sigmoid型和linear型，本发明使用linear型。

再次利用PyTorch中的permute()方法对张量的维度顺序进行重新排列；最后得到自注意力机制的最终输出特征O表示为：

式中Q＝{Q₁,Q₂,…,Q_i,…,Q_m}^T；

教师模型的训练步骤如下：

(1)导入滑动时间窗口处理好的旧训练集数据和寿命标签；

(2)设置优化器和损失函数，本实施例中损失函数选用均方差损失函数；

(3)设置训练次数(比较大)和截停函数；

(4)对教师模型进行训练，每次训练完成都使用旧验证集数据进行验证，验证完会得到一个验证均方差，当验证均方差连续10次不再下降时触发截停函数，停止训练并保存验证均方差最小的网络参数；若一直没有触发截停函数则达到训练次数后，选择验证均方差最小的网络参数。

S5、使用保存好的教师模型、新训练集和新验证集训练和保存学生模型；卷积神经网络(Convolutional Neural Networks,CNN)由于其保留空间关系的同时进行高效的特征提取，也被用于RUL预测。CNN中的权重参数在不同的位置上是共享的，因此网络中需要学习的参数数量会大幅减少。它通过池化层对卷积层的输出进行下采样处理，减小了特征图的尺寸，所以模型复杂度会相应减少，计算效率得到提升。结合上述优点，CNN非常符合学生模型的要求。

然而，在实际工程运用中CNN只能从输入数据中学习到大量的低级特征，得到的预测效果不理想。变分自编码器(Variational Autoencoder,VAE)作为一种无监督学习方法可以通过学习数据的低维表示来捕捉数据的关键特征。将CNN与VAE相结合，可以同时利用CNN的优势特征提取和VAE的潜在变量建模能力，从而学习更高级的特征表示。

如图4所示，学生模型具体处理过程为：

a、利用卷积神经网络对输入数据进行特征提取；卷积神经网络包括多个卷积层和池化层。若卷积神经网络具有多个路径，得到多个张量。则使用torch.cat()函数将多个张量进行拼接，形成一个新的张量，然后再通过nn.Flatten()方法对拼接后的张量进行扁平化操作，将其转换为一个二维张量，为后续使用变分自动编码器做准备。

p(x)＝∫p(x|z)p(z)dz (10)

式中z是连续域，积分是很难处理的。通过最大化对数似然的下界来解决公式(10)的积分；根据Jensen不等式得出的数据x的变化下界为：

式中，φ和θ是优化目标，分别为编码器和解码器的参数；p_θ(x|z)是基于高斯分布中采样得到的，称为生成分布；表示重构误差，q_φ(z|x)为近似后验分布，p_θ(z)为先验分布，D_KL(q_φ(z|x)||p_θ(z))表示二者之间的KL散度；第一项是x的重构，q_φ(z|x)通过编码器进行建模，输出为多元高斯分布，然后从q_φ(z|x)采样得到对数似然logp_θ(x|z)，进而通过最大化log p_θ(x|z)重构x；编码器的主要目标是将输入数据映射到较低维空间，充当特征提取器；第二项是潜在特征z的正则化，通过最小化z的近似后验与先验分布之间的KL散度来正则化z；第二项的目标是通过使编码器返回的分布接近标准法线来正则化潜在空间的特征；

c、利用解码器对提取的关键特征进行解码，由于教师模型最后使用全连接层进行预测，所以解码器设计为线性层；

学生模型的训练步骤如下：

(1)导入滑动时间窗口处理好的新训练集数据和寿命标签；

(2)设置优化器和损失函数，损失函数采用复合损失函数；

(3)设置训练次数(比较大)和截停函数；

S6、利用学生模型完成航空发动机剩余寿命预测。

知识蒸馏的逻辑在训练学生模型的分类任务已经被证明是有效的，本发明将其应用于RUL预测的回归任务。本发明的复合损失函数计算方法为：

式中，j是一次性输入到网络的训练样本的数量；

加入特征损失是一种常用的知识蒸馏技术，它在传统的知识蒸馏方法中额外引入了教师模型与学生模型之间特征的对齐步骤。特征损失可以促使学生模型更好地捕捉到输入数据的特征，并且减少过拟合的风险；通过最小化两个模型特征之间的差别，学生模型可以更好地理解教师模型的决策依据，这有助于增强学生模型对关键特征的学习，从而提高模型的性能；相对于直接使用大模型，特征损失可将教师模型的知识压缩到学生模型中，从而减少了模型的参数量和计算开销。这样能够加快训练速度，并节省模型在部署和应用中的存储空间。鉴于此，本发明引入余弦相似度损失函数作为特征损失，形式如下：

L_特征＝|cos(f_t-f_s)| (14)

由于学生模型引入了VAE，为了使得模型的潜在空间更容易理解以及增强模型提取高级的特征的能力，本发明引入KL散度作为KL损失，KL损失表示为：

L_KL＝D_KL(q_φ(z|x)||p_θ(z)) (15)

复合损失函数表示为：

L_总＝αL_硬+βL_软+ωL_特征+κL_KL (16)

式中，α，β，ω和κ为超参数，根据具体的数据进行调整。至此，损失函数构建完成，如图5所示。通过计算损失函数关于模型参数的梯度，然后使用优化算法来更新模型参数，使得损失函数不断减小，通过多次迭代更新模型参数，最终的目标是找到使损失函数达到最小值的参数配置，以获得最佳的模型性能。然而，损失函数的最小化并不意味着模型完美地拟合了所有数据，可能存在过度拟合和欠拟合的情况，所以使用了验证集来评估模型。本文的训练思路是沿着损失函数梯度下降的方向更新参数，也就是朝着损失函数最小化的方向走，走一步就验证一步，当连续10步的验证均方差都不下降时触发截停，保存模型。

本实施例通过C-MAPSS航空发动机数据集预测实例来验证了本发明方法的有效性。

在本实施例中，使用C-MAPSS数据集对提出的方法进行评估。其中的数据是由NASA开发的C-MAPSS软件模拟生成的，所以学者们将其称为C-MAPSS大型涡轮风扇发动机数据集，并且它广泛应用于剩余使用寿命预测任务。该数据集由4个子数据集组成，每个子数据集均包含26列，分别是1列发动机编号，1列循环周期，3列操作条件，以及21列传感器测量数据。每个发动机单元的初始磨损程度是未知的，但通常认为是健康的。随着时间的推移，发动机单元逐渐劣化，直到达到系统故障，每一个发动机最后一行的数据对应于发动机失效的时间周期。不同的子数据集具有不同的运行条件和故障模式，如表1所示。

表1 C-MAPSS子数据集概况

针对C-MAPSS数据集，采用均方根误差(Root Mean Square Error,RMSE)、评分函数(Soring Function,Score)两种评价指标，用以评估模型在预测性能。RMSE越小，代表模型的预测结果越接近真实值，模型的准确性越高。均方根误差的计算公式为：

式中，k为测试集中发动机总数，为第i个发动机RUL的预测值，y_i为第i个发动机RUL的真实值。

评分函数的计算公式为：

式中，和/>是评分函数中的惩罚系数。在实际工程应用中，预测值大于真实值导致的后果更加严重，因此惩罚系数更大。总之，评分函数的数值越低，表示RUL预测效果越好。

由于四个子数据集具有不同的运行条件和故障模式，运行条件数不同的数据之间的差异也较为明显，运行条件数相同的两个数据集之间数据差异较低，所以分为单条件和多条件进行实验。单条件下的FD001与FD003为一组，多条件下的FD002与FD004为另一组。两组中的子数据集轮流作为旧数据和新数据，以体现本发明方法在适用历史数据和适应新数据的优点，具体设置如表2所示。以A组实验为例，实验流程如下，首先将FD001子数据集充当历史数据划分训练集和验证集用以训练和保存最优的教师模型，然后将教师模型的参数固定，之后将FD003子数据集充当新数据划分训练集和验证集训练和保存最优的学生模型，最后使用FD001和FD003的测试集测试保存的最优学生模型。其中训练集和验证集的样本比例为4:1，实验重复次数为5次。

表2增量试验设置

/>

Momentum可以帮助算法在训练初期加快收敛速度，RMSprop可以有效地处理参数空间中的非均衡问题，而Adam算法结合了Momentum和RMSprop两种优化算法的思想，计算量较小，鲁棒性较好，所以本发明选择使用Adam优化算法对教师模型和学生模型中的参数进行优化求解。本发明经过多次实验，确定了相关超参数的取值，如表3所示。

表3超参数设置

组号	寿命上限M	批次大小	随机失活率	学习率	损失函数中的α，β，ω和κ
						A、B	120	64	0.2	0.001	0.45，0.35，0.05，0.15
C、D	130	128	0.2	0.001	0.4，0.4，0.1，0.1

为了对比增量实验的结果，单独使用教师模型对每一个子数据集进行训练和预测。为了体现本发明方法在降低模型复杂度方面的优点，选取组号A进行消融实验，同时增加模型参数量和模型复杂度(FLOPs)为评价指标。具体设置如表4所示，每组同样重复进行5次。

表4消融实验设置

组号	模型	训练集和验证集	测试集
				A-1	去掉VAE部分的整体模型	同A组设置	FD001、FD003
a	教师模型	FD001	FD001、FD003
				b	教师模型	FD003	FD001、FD003
c	教师模型	FD001+FD003	FD001、FD003
				d	学生模型	FD001	FD001、FD003
e	学生模型	FD003	FD001、FD003
				f	学生模型	FD001+FD003	FD001、FD003
g	去掉VAE部分的学生模型	FD001	FD001、FD003
				h	去掉VAE部分的学生模型	FD003	FD001、FD003
i	去掉VAE部分的学生模型	FD001+FD003	FD001、FD003

考虑到大多数同领域内的研究方法只关注同一数据集下的预测精度问题，没有做数据增量操作，所以将训练数据来源设置为同一子数据集以方便进行对比实验，具体设置如表5所示，每组依旧重复进行5次。

表5对比实验设置

组号	训练集和验证集	测试集
			j	FD001	FD001
k	FD002	FD002
			l	FD003	FD003
m	FD004	FD004

增量实验和教师模型的单独实验的实验结果如表6和表7所示。对比表6的A、B行和表7的FD001、FD003行，可以看出KDDIN中的学生模型较好地吸收了教师模型的知识，在历史数据上的表现较好，而在新数据上的表现比教师模型稍差一些。对比表6的C、D行和表7的FD002、FD004行，得出的结果同样如此。结果表明，使用KDDIN方法进行训练后，学生模型对历史数据的预测能力和教师模型相当，体现了适用于历史数据的能力。

表6增量实验结果

组号	RMSE	Score
			A	12.94、16.36	285.41、665.48
B	15.03、12.59	493.73、247.90
			C	17.56、23.75	1251.26、2391.86
D	26.63、20.86	2854.76、1854.76

表7教师模型的指标

测试集	RMSE	Score
			FD001	12.75	275.29
FD002	16.58	1169.35
			FD003	12.17	231.50
FD004	18.16	1696.34

消融实验的结果如表8所示。对比a、b行，d、e行，g、h行的RMSE和Score列，可以看出单一的教师模型或学生模型在历史数据上表现较好，但是在新数据上表现较差。这说明单一模型不能很好地适应新数据，如果用新数据训练模型，则必然会出现灾难性遗忘问题。观察c、f、i行，这些都是用了FD001和FD003混合数据训练出来的结果。对比使用单一数据训练的其他行，可以看出预测精度有所下降。对比g、h、i行和e、f、g行以及A行和A-1行，可以看出增加了VAE部分的学生模型在参数量和模型复杂度增加极少的情况下，同一数据集下的表现结果有所提升。这说明本发明增加VAE部分增强了学生模型的高级特征提取能力从而提高了预测能力。这些结果表明，使用KDDIN方法获得的参数量较少且模型复杂度较低的预测模型，既适用于历史数据又能适应新数据，解决了灾难性遗忘问题。

表8消融实验结果

组号	RMSE	Score	参数量	FLOPs
					A	12.94、16.36	285.41、665.48	8,741	57,952
A-1	13.79、16.62	359.45、694.62	7,841	57,120
					a	12.75、48.15	275.29、45062.69	2,209,315	8,394,400
b	45.88、12.17	42686.18、231.50	2,209,315	8,394,400
					c	16.38、17.91	494.01、579.95	2,209,315	8,394,400
d	14.79、55.76	412.73、1645835.26	8,741	57,952
					e	50.63、15.94	1145782.63、542.64	8,741	57,952
f	17.59、16.61	565.32、529.82	8,741	57952
					g	15.22、68.83	494.01、3693683.28	7,841	57,120
h	59.75、16.27	2984531.28、641.51	7,841	57,120
					i	18.24、18.71	728.21、816.06	7,841	57,120

对比实验的结果如表9所示。BiLSTM由于模型参数量大，训练样本相对较少时容易产生过拟合现象，所以表现一般。HDNN以并行方式集成了两个深度学习模型，以增加模型复杂度为代价，得到了较好的结果。KDnet-RUL使用了同构蒸馏和异构蒸馏，训练过程较为复杂，因此获得的结果较好。CAKD和DLB由于在蒸馏过程中集成了对比学习和自蒸馏机制所以表现更好。然而，中间层特征知识传递要求模型具有相似的结构，并且难以扩展到具有不同结构的多个模型；DLB的自蒸馏机制受到学生模型容量的限制。我们提出的KDDIN在FD001和FD003这两个简单数据集上表现较好，具体测试效果如图6所示，图6(a)为A组FD001测试集实验结果，图6(b)为B组FD003测试集实验结果。在FD002和FD004这两个简单数据集上表现有待提升，但是也与其余方法差距不大。此外，本发明方法可以应用于工况发生变化产生新数据的场景。

表9实验结果对比

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于KDDIN的航空发动机剩余寿命预测方法，其特征在于，包括以下步骤：

S4、使用旧训练集和旧验证集训练和保存教师模型；

S6、利用学生模型完成航空发动机剩余寿命预测。

2.根据权利要求1所述的基于KDDIN的航空发动机剩余寿命预测方法，其特征在于，所述教师模型具体处理过程为：

F_t＝σ(W_f[H_t-1,X_t]+b_f) (1)

I_t＝σ(W_i[H_t-1,X_t]+b_i) (2)

C_t＝tanh(W_c[H_t-1,X_t]+b_c) (3)

O_t＝σ(W_o[H_t-1,X_t]+b_o) (5)

P_i＝Φ(W^TH_i+b) (7)

式中，W和b分别是权重矩阵和偏置向量，Φ()是得分函数；

最后得到自注意力机制的最终输出特征O表示为：

式中Q＝{Q₁,Q₂,…,Q_i,…,Q_m}^T；

教师模型的训练步骤如下：

(1)导入滑动时间窗口处理好的旧训练集数据和寿命标签；

(2)设置优化器和损失函数，损失函数选用均方差损失函数；

(3)设置训练次数和截停函数；

3.根据权利要求1所述的基于KDDIN的航空发动机剩余寿命预测方法，其特征在于，所述学生模型具体处理过程为：

a、利用卷积神经网络对输入数据进行特征提取；

p(x)＝∫p(x|z)p(z)dz (10)

式中，φ和θ是优化目标，分别为编码器和解码器的参数，p_θ(x|z)是基于高斯分布中采样得到的，称为生成分布，表示重构误差，q_φ(z|x)为近似后验分布，p_θ(z)为先验分布，D_KL(q_φ(z|x)||p_θ(z))表示二者之间的KL散度；第一项是x的重构，q_φ(z|x)通过编码器进行建模，输出为多元高斯分布，然后从q_φ(z|x)采样得到对数似然logp_θ(x|z)，进而通过最大化logp_θ(x|z)重构x；第二项是潜在特征z的正则化，通过最小化z的近似后验与先验分布之间的KL散度来正则化z；

学生模型的训练步骤如下：

(1)导入滑动时间窗口处理好的新训练集数据和寿命标签；

(2)设置优化器和损失函数，损失函数采用复合损失函数；

(3)设置训练次数和截停函数；

4.根据权利要求3所述的基于KDDIN的航空发动机剩余寿命预测方法，其特征在于，所述复合损失函数计算方法为：

式中，j是一次性输入到网络的训练样本的数量；

引入余弦相似度损失函数作为特征损失，形式如下：

L_特征＝|cos(f_t-f_s)| (14)

引入KL散度作为KL损失，KL损失表示为：

L_KL＝D_KL(q_φ(z|x)||p_θ(z)) (15)

复合损失函数表示为：

L_总＝αL_硬+βL_软+ωL_特征+κL_KL (16)

式中，α，β，ω和κ为超参数。