CN115545092A

CN115545092A - 一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法

Info

Publication number: CN115545092A
Application number: CN202211057935.4A
Authority: CN
Inventors: 钟诗胜; 赵明航; 刘丹; 林琳; 付旭云; 刘雪云
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-30

Abstract

本申请提供了一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，采用时间序列聚类和孪生神经网络相结合，实现航空发动机小样本故障的诊断。本申请通过学习一种相似性度量来解决小样本条件下多标签分类问题，有效地提高小样本条件下多故障分类的准确率，有效地缓解深度神经网络的过拟合问题；使用SANet作为孪生神经网络的特征提取模块，以期学到更丰富的时序特征，进而提高不同类型样本在映射空间中的可分性；SANet可以同时提取时间序列的短期依赖和长期依赖，并在提取长期依赖方面优于RNN模型；有效地缓解样本不均衡所带来的训练问题，对故障样本的诊断效果更佳。

Description

一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法

技术领域

本申请属于发动机故障诊断方法技术领域，更具体地说，是涉及一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法。

背景技术

作为航空器的主要动力来源，航空发动机的可靠性直接影响着航空器的飞行安全。发动机长期在高温、高压和高速环境中工作，其部件将不可避免地遇到性能衰退甚至故障，比如排气温度指示故障(EGT Indication)和进口总温指示故障(TAT SensorIndication)等。如果发动机出现故障而又不能及时排除，则极有可能导致重大的飞行事故和高额的维修费用。因此，为了保证航空器的安全飞行和降低维修的成本，对发动机进行实时的性能监控和故障诊断是必要的措施。

发动机的故障诊断方法主要分为两类：基于物理模型的方法和基于数据驱动的方法。基于物理模型的方法是通过建立发动机的物理模型对其进行故障诊断，故障诊断的结果也具有较好的解释性。然而，该方法的应用限制也是非常明显的。首先，在建模过程中需要大量的先验知识，甚至涉及一些保密或者无法测量的设计参数。其次，复杂设备的损伤传播过程和动态响应非常复杂，这将导致整个建模过程会非常艰巨。最后，物理模型通常是在标准工况下构建的，在实际的运行过程中复杂的环境因素可能导致物理模型的精度偏低。

相反地，基于数据驱动的方法是从历史监测数据中学习一个分类模型，然后用这个分类模型来推断发动机的健康状态。作为数据驱动方法的重要分支，深度学习方法可以从历史监测数据中自动学习丰富且有用的特征，即不需要人工专门选取特征，这使得故障诊断过程更加直接。近年来，一部分学者对基于深度学习方法的故障诊断展开了各类研究。例如有的学者开发了一个深度残差收缩网络，通过加入软阈值的方法来削弱特征中的噪声或冗余信息，提高了旋转类机械的故障诊断效果。有的学者使用两层递阶卷积神经网络提取区分度更高的特征，从而提高了故障分类和故障分级的预测精度。有的学者使用双向GRU网络从监控数据中自动学习特征，并且在切削刀具、齿轮箱和轴承三类机械零部件上验证了所提模型的有效性和泛化性。还有的学者利用条件约束玻尔兹曼机构造了一个深度置信网络，并对液压泵的健康状态进行了准确预测。因此，在样本标签类别均衡且数量充足的条件下，深度学习方法在机械故障诊断中的有效性已经得到充分验证。

然而，对于发动机而言，带标签的故障数据却非常有限。一方面，发动机属于相对成熟的工业装备，其发生故障的次数较少。另一方面，发动机又属于多部件复杂装备，其故障的类型较多，很难收集到同种类型故障下充足的样本。如图1所示，本申请以某航空公司63台发动机的两种常见故障为例，共收集得到1047个样本，其中包括984个正常样本，38个排气温度指示故障样本和25 个进口总温指示故障样本。

因此，发动机的故障诊断属于不均衡条件下的小样本多标签分类问题，直接使用深度学习进行故障诊断将遇到以下挑战：

(1)小样本条件下多标签分类问题。如今的深度神经网络中含有大量的参数需要优化，如果仅用少量带标签的样本去训练基于交叉熵的深度神经网络，那么深度神经网络很容易陷入过拟合。因为发动机的监测数据包含极少数的故障样本，如果仅有少量带标签的故障样本去参与训练基于交叉熵的深度神经网络，那么深度神经网络容易陷入过拟合而导致故障样本的诊断精度低。

(2)多维时间序列问题。发动机的监测数据属于典型的多维时间序列。如今的深度神经网络，例如RNN，在处理多维时间序列时仍然存在不能同时提取短期依赖和长期依赖的缺点。也就是说，难于从监测数据中提取全部的时序特征。

(3)样本不均衡问题。一般训练集中故障样本的数目远远少于正常样本的数目。例如，诊断的训练集中包括787个正常样本，30个排气温度指示故障样本和20个进口总温指示故障样本。那么将会有310753个样本对属于同一类型，而只有39950个样本属于不同类型，两者的不均衡率近似为7.78：1，样本的不均衡问题仍未得到妥善解决。因此在训练的过程中，正常样本的梯度将会主导基于交叉熵的深度神经网络的总梯度，导致度神经网络模型更加关注正常样本的训练。换而言之，即使深度神经网络将所有训练样本都诊断为正常样本，损失函数也可以非常小。在这种情况下，故障样本很容易被错分为正常样本。

因此，本申请提出一种可以有效地提高小样本条件下多故障分类准确率的航空发动机诊断方法，可以有效地提取多维时间序列中复杂的时序特征，从而使得所提取的高维特征具有更好的可分性；有效地缓解由样本不均衡所带来的训练问题，提高了发动机故障诊断的整体精度。

发明内容

为实现上述目的，本申请采用的技术方案是：提供一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，采用时间序列聚类和孪生神经网络相结合，实现航空发动机小样本故障的诊断。

可选地，包括训练阶段，训练阶段包括以下步骤：

步骤一：采集航空发动机状态监测数据并处理，将采集的数据分为：正常样本、EIF样本、TSIF样本，执行步骤二；

步骤二，采用K-Means方法对正常样本

进行聚类，得到正常样本聚类中心的集合CPD_NOR，执行步骤三；

步骤三，将正常样本聚类中心的集合CPD_NOR，以及EIF样本的集合和TSIF 样本的集合进行配对，构造用于训练DSSAN的样本对集合SD^(TRAIN)，执行步骤四；

步骤四：训练DSSAN模型1个Epoch；

特征提取模块将样本对

映射到相同的特征空间之中，进而生成各自的嵌入式表示

相似度计算模块计算嵌入式表示之间的距离

根据对比损失函数L_sia，优化DSSAN 模型，执行步骤五；

步骤五：若训练精度＝100％或者Epoch＞20，执行步骤六，否则，执行步骤四；

步骤六：使用训练完成的模型进行航空发动机的故障诊断。

可选地，还包括测试阶；

段测试阶段：对于任意的测试样本

将其与集合

中元素一一配对，并计算配对样本的欧氏距离，然后找到SD中与

距离最相近的元素

最后判定

与FSS^*属于同一类型。

可选地，步骤一中，采集的数据包括排气温度裕度(EGTM)、排气温度偏差值(DEGT)、核心机转速偏差值(DN2)、燃油流量偏差值(DFF)；

根据采集的排气温度裕度(EGTM)、排气温度偏差值(DEGT)、核心机转速偏差值(DN2)、燃油流量偏差值(DFF)进行样本构造，样本构造过程包括以下步骤：

步骤101，根据维修报告确定发动机发生故障的时间，从而获得其在翼期间关键状态特征参数的历史监控数据，第k台发动机的关键状态特征参数如下所示：

式中，m_k表示第k台发动机发生故障之前的飞行循环总数；

步骤102，利用滑窗的方式从关键状态特征参数中构造故障征兆样本，滑窗的尺寸设置为10乘4，滑窗的步长设置为5，故障征兆样本位于关键状态特征参数的尾部，滑窗从右向左滑动，，第k台发动机的第p个故障征兆样本如下所示：

当p＝1时，FSS_k，p表示故障样本；当

时，FSS_k，p表示正常样本；

步骤103，将正常样本组成的集合记为：

表示第i个正常样本；

将排气温度指示故障样本组成的集合记为：

表示第i个排气温度指示故障样本；

将进口总温指示故障样本组成的集合记为：

表示第i个进口总温指示故障样本；

N_NOR、N_EIF和N_TSIF分别表示各类型样本的总数；

采取五折交叉的方式来划分数据集，对于每一次划分，N_NOR，N_EIF和 N_TSIF按照8∶2的比例分为两个部分，

即

和

则训练集为：

测试集为：

可选地，步骤二中，采用K-Means方法用于正常样本的聚类，构成正常样本聚类中心的集合CPD_NOR；

对正常样本

进行聚类的方法为：

假设

聚类成

个簇，簇的集合为

则聚类的目标是最小化簇内平方距离和：

式中，

为第i簇

的聚类中心。

可选地，步骤三中，由步骤二聚类得到的正常样本聚类中心的集合 CPD_NOR、与EIF样本集合和TSIF样本集合共同组成用于训练DSSAN模型的样本对集合SD^(TRAIN)：

在计算得到CPD_NOR之后，需要构造用于训练孪生神经网络的样本对集合，记为SD^(TRAIN)，则

并且样本对

的标签y_k的设定规则为当样本对的两样本属于同一类型时，对应标签为1；当样本对两样本属于不同类型时，对应标签为0，即为

如果CPD_NOR中的样本数目与

和

中的样本数目近似相等，则标签为1的样本对个数为：

而标签为0的样本对个数为：

则标签为1和标签为0的样本对的不均衡率近似为：

可选地，步骤四中，DSSAN模型包括特征提取模块和相似度计算模块，特征提取模块包括两个SANet；

特征提取模块由两个结构相同且权重共享的SANet拼接而成，并以样本对的形式

为输入，学习一种映射F_W(·)，将样本对映射到相同的特征空间之中，进而生成各自的嵌入式表示

可选地，SANet包括两个Encoder层和一个全连接层；

每个Encoder包括一个多头注意力机制、两个残差连接&层正则化和一个全连接前馈层；

多头注意力机制包括多个自注意力模块；

多头注意力机制的函数表达式为：

MH_k＝MultiHead(Q_k，K_k，V_k)＝Concat(H_k，1，H_k，2，…，H_k，h)W^O

and

式中，Q_k，K_k，V_k是输入FSS_k经过编码得到EFSS_k，再经过线性变换得到的Query，Key，Value，即Q_k＝EFSS_kW^Q，K_k＝EFSS_kW^K，V_k＝EFSS_kW^V。 W^Q，W^K，W^V，

W^O表示线性映射，

是Q_k的维度。

可选地，层正则化使得同一层的所有节点共享相同的均值和方差，不同的样本可以有不同的均值与方差，层正则化的计算公式如下所示：

式中，

是MH_k在该层第i个节点上的分量，N_h表示该层隐含节点的个数；

全连接前馈层包括两个线性变换，计算公式如下所示：

FFN(MH_k)＝(MH_kW₁+b₁)σ(1.702(MH_kW₁+b₁))W₂+b₂

式中，W₁，W₂表示线性变换，b₁，b₂表示偏置，σ(·)表示Logistic Distribution的累积分布函数。

可选地，相似度计算模块通过计算嵌入式表示之间的简单距离来表示样本对之间的相似性，采用欧氏距离D_E(·，·)；

对抗损失定义如下：

式中，d表示一个阈值，将属于不同类型的嵌入式表示的欧氏距离限制在 [0，d]之间，即当距离超过d时，则将其损失设置为0。

在训练的过程中，如果样本对

属于同一类型，则距离

就会越来越小，即

之间相似性越来越高；反之样本对

不属于同一类型，距离

就会越来越大，即

之间相似性就越来越低。

本申请提出了一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，该方法的核心是孪生神经网络，通过学习一种相似性度量来解决小样本条件下多标签分类问题。本申请的有益效果为：

(1)本申请提出了一种新的故障诊断框架，即TSC-DSSAN模型，可以有效地提高小样本条件下多故障分类的准确率。

(2)孪生神经网络的特征提取模块由SANet构成，可以从多维时间序列中提取更为丰富的时序特征。在发动机的故障诊断中，一方面，孪生神经网络的输入由样本变为样本对，通过样本之间的两两配对可以使得训练集中的样本量以平方级的形式增加。因此，训练集中的样本量得到了较大地扩充，这可以有效地缓解深度神经网络的过拟合问题。另一方面，孪生神经网络在训练阶段通过最小化对抗损失使得同一类型样本对的嵌入式表示在映射空间中彼此接近，而不同类型样本对的嵌入式表示彼此远离，也就是说故障样本与正常样本属于不同类型的样本对，在映射空间中将会彼此远离，可以增强其可分性。SANet可以同时提取时间序列的短期依赖和长期依赖，并在提取长期依赖方面优于RNN 模型。本申请使用SANet作为孪生神经网络的特征提取模块，以期学到更丰富的时序特征，进而提高不同类型样本在映射空间中的可分性。

(3)利用正常样本的聚类中心与故障样本构成的样本对来训练DSSAN，可以有效地缓解样本不均衡所带来的训练问题。对正常样本进行聚类，然后用聚类中心集合与故障样本集合两两匹配构成样本对。如果聚类中心的数目与故障样本的数目近似相等，那么同一类型和不同类型的样本对之间的不均衡率近似为 1:1，从而可以有效地缓解样本不均衡所带来的训练问题。

(4)利用在发动机的真实监测数据对所提模型进行验证，表明TSC-DSSAN 模型对故障样本的诊断效果更佳。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于t-SNE的所收集样本的可视化；

图2(a)为航空发动机的结构示意图；

图2(b)为航空发动机性能检测数据的处理流程图；

图3为DSSAN模型框架；

图4为故障诊断方法的基本流程图；

图5为测试集上所考虑方法的TER；

图6为测试集上所考虑方法的TTR；

图7为测试集上所考虑方法的混淆矩阵图；

图8为基于t-SNE的测试样本的高维特征的可视化图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

现对本申请实施例提供的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法进行说明。所述基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，采用时间序列聚类和孪生神经网络相结合，实现航空发动机小样本故障的诊断。

包括训练阶段和测试阶段，训练阶段包括以下步骤，如图4所示：

步骤二，采用K-Means方法对正常样本

步骤四：训练DSSAN模型1个Epoch；

特征提取模块将样本对

映射到相同的特征空间之中，进而生成各自的嵌入式表示

相似度计算模块计算嵌入式表示之间的距离

根据对比损失函数L_sia，优化DSSAN 模型，执行步骤五；

步骤六：使用训练完成的模型进行航空发动机的故障诊断。

测试阶段：对于任意的测试样本

将其与集合

距离最相近的元素

最后判定

与FSS^*属于同一类型。

步骤一中，采集的数据包括排气温度裕度(EGTM)、排气温度偏差值(DEGT)、核心机转速偏差值(DN2)、燃油流量偏差值(DFF)。

图2(a)为本申请所研究的涡扇发动机的基本构型，主要由风扇、低压压气机、高压压气机、燃烧室、高压涡轮以及低压涡轮等单元体组成。相关研究表明，发动机的状态特征参数能够反映整机及其单元体的性能状态，从状态特征参数提取故障征兆(故障特征)是进行故障诊断的关键步骤。在涡扇发动机众多状态特征参数之中，最重要且最有效的排气温度(EGT)、低压转子转速(N1)、高压转子转速(N2)、燃油流量(FF)。

在实际飞行中，上述的状态特征参数的测量值还会受到外界环境条件、工作状态以及发动机推力等因素的影响，直接使用测量值可能会误判发动机的性能状态。为了更加准确地反映发动机的性能状态，原始设备制造商(OEM)结合发动机性能基线模型、外界环境条件以及发动机推力大小等将测量值相似转化为基线偏差值。如图2(b)所示，GE公司根据飞行高度、马赫数以及推力等参数将排气温度、核心机转速和燃油流量转化为排气温度裕度(EGTM)、排气温度偏差值(DEGT)、核心机转速偏差值(DN2)、燃油流量偏差值(DFF)。然后，再结合指印图对发动机进行故障诊断。因此，本申请也选择EGTM、DEGT、DN2和DFF 作为发动机故障诊断的关键状态特征参数(Key characteristic parameters， KCP)。

步骤101，根据维修报告确定发动机发生故障的时间，从而获得其在翼期间关键状态特征参数的历史监控数据。因此，第k台发动机的关键状态特征参数如下所示：

式中，m_k表示第k台发动机发生故障之前的飞行循环总数。

步骤102，利用滑窗的方式从关键状态特征参数中构造故障征兆样本。滑窗的尺寸设置为10乘4，滑窗的步长设置为5。故障征兆样本位于关键状态特征参数的尾部，滑窗从右向左滑动，便于分析。因此，第k台发动机的第p个故障征兆样本如下所示：

当p＝1时，FSS_k，p表示故障样本；当

时，FSS_k，p表示正常样本。

步骤103，将正常样本组成的集合记为：

表示第i个正常样本；

将排气温度指示故障样本组成的集合记为：

表示第i个排气温度指示故障样本；

将进口总温指示故障样本组成的集合记为：

表示第i个进口总温指示故障样本。

此外，N_NOR、N_EIF和N_TSIF分别表示各类型样本的总数。

鉴于故障样本的数目较少，本申请采取五折交叉的方式来划分数据集。对于每一次划分，N_NOR，N_EIF和N_TSIF按照8∶2的比例分为两个部分，

即

和

则训练集为：

测试集为：

采用五折交叉的方式来划分数据集可采用现有技术实现，不属于本申请的创新点，故不再赘述。

步骤二中，为了缓解样本不均衡的问题，同时也考虑到正常样本具有局部空间聚集的现象。因此，对正常样本进行聚类，同一个簇中的正常样本有很大的相似性，而不同簇间的正常样本有很大的相异性，并且由簇中心组成的集合能够很好地代表原始的正常样本。本申请采用K-Means方法用于正常样本的聚类，构成正常样本聚类中心的集合CPD_NOR。

对正常样本

进行聚类的方法为：

假设

聚类成

个簇，簇的集合为

则聚类的目标是最小化簇内平方距离和：

式中，

为第i簇

的聚类中心。

步骤三中，由步骤二聚类得到的正常样本聚类中心的集合CPD_NOR、与EIF 样本集合和TSIF样本集合共同组成用于训练DSSAN模型的样本对集合SD^(TRAIN)。

对于孪生神经网络，训练过程中输入的数据是样本对及其对应的标签。在计算得到CPD_NOR之后，需要构造用于训练孪生神经网络的样本对集合，记为 SD^(TRAIN)，则

并且样本对

如果CPD_NOR中的样本数目与

和

中的样本数目近似相等，则标签为1的样本对个数为

而标签为0 的样本对个数为

则标签为1和标签为0的样本对的不均衡率近似为

因此，这可以有效地缓解样本不均衡所带来的训练问题。

步骤四中，DSSAN模型包括特征提取模块和相似度计算模块，特征提取模块包括两个SANet。

本申请采用的SANet由图3所示，能够给输入中的重要信息赋予较大的权重而次要信息赋予较小的权重，模型在训练过程中更加关注重要信息而忽略次要信息，从而提高模型特征提取的准确性；并且，通过注意力分数可以分析出输入和输出之间的关系，也提高了模型的可解释性。本申请使用SANet对发动机的监测数据进行复杂时序特征的学习，其结构如图3所示，包括两个Encoder 层和一个全连接层。

而每个Encoder层包括一个多头注意力机制、两个残差连接&层正则化和一个全连接前馈层。

多头注意力机制是SANet的核心组件，由多个自注意力模块构成。不同的自注意力关注时间序列在不同映射子空间下表示的重要信息，即不同的时间模式，从而可以学到更加丰富的时序特征。多头注意力机制的函数表达式为：

and

W^O表示线性映射，

是Q_k的维度。

层正则化的作用是归一化，使得同一层的所有节点共享相同的均值和方差，而不同的样本可以有不同的均值与方差。层归一化可以显著地减少训练时间。层正则化的计算公式如下所示：

式中，

是MH_k在该层第i个节点上的分量，N_h表示该层隐含节点的个数。

全连接前馈层(Fully connected feed-forward Layer，FFN)包括两个线性变换，为了增加模型的非线性学习能力，在两个线性变换中间还加了一个GELU的激活函数。该层的计算公式如下所示：

FFN(MH_k)＝(MH_kW₁+b₁)σ(1.702(MH_kW₁+b₁))W₂+b₂

式中，W₁，W₂表示线性变换，b₁，b₂表示偏置，σ(·)表示Logistic分布的累积分布函数。

相似度计算模块通过计算嵌入式表示之间的简单距离来表示样本对之间的相似性，采用欧氏距离D_E(·，·)。

对抗损失可以直接处理配对数据，经常用于孪生神经网络的训练。对抗损失定义如下：

在训练的过程中，如果样本对

属于同一类型，则距离

就会越来越小，即

之间相似性越来越高；反之样本对

不属于同一类型，距离

就会越来越大，即

之间相似性就越来越低。因此，DSSAN模型不会直接预测输入样本的分类标签，而是学习输入之间的一种相似性度量。

在本申请中，为保证收集发动机的监测数据来评估所提故障诊断模型的有效性，数据来源于亚洲某航空公司真实操作数据而不是模拟数据。根据维修报告，共收集三种状态下的1047个样本，其中包括984个正常样本，38个排气温度指示故障样本和25个进口总温指示故障样本，如图1所示。然后用五折交叉划分数据集，若不特殊说明，训练集中样本的数目皆以第一折为例，如表1 所示。在训练集中，正常样本与排气温度指示故障样本的不均衡率为 787/30≈26.2，而正常样本与进口总温指示故障样本的不均衡率更是高达 787/20≈39.3，因此训练集是极其不平衡的。对正常样本进行聚类之后，利用聚类中心集合(聚类中心取30)和故障样本生成训练孪生神经网络的样本对，共生成3组相同类型的2200个样本对和3组不同类型的2100个样本对，如表2所示。一方面，重构的数据集共有4300个样本，样本量得到了较大地扩充。另一方面，相同类型的样本对与不同类型的样本对的不平衡率仅为

因此重构的训练集几乎是平衡的。

表1：航空发动机数据集

表2：航空发动机样本对集合

样本I	样本II	样本对	标签	总计
					NOR	NOR	<NOR，NOR>	1	30＊30＝900
NOR	EIF	<NOR，EIF>	0	30＊30＝900
					NOR	TSIF	<NOR，TSIF>	0	30＊20＝600
EIF	EIF	<EIF，EIF>	1	30＊30＝900
					EIF	TSIF	<EIF，TSIF>	0	30＊20＝600
TSIF	TSIF	<TSIF，TSIF>	1	20＊20＝400

实验环境：Python 3.7和Pytorch1.8.0，处理器：英特尔i7-9750H，内存：8G DDR4。

优化器：神经网络由Adam进行优化，学习率设为0.0002，动量β₁＝0.5，β₂＝0.999。批次大小设为128，并且经过预实验确定TSC-DSSAN模型的最大epochs为20。

超参设置：本申请使用网格搜索方法来确定TSC-DSSAN模型的超参数。聚类算法中聚类中心的数目设置为30。TSC-DSSAN模型包含2个Encoder层和一个输出维度为64的全连接层，并且每个Encoder层中的多头注意力机制为 2-Head注意力机制，并且全连接前馈层的输出维度为128。

如果各类型故障样本的数量相差不大，并接近正常样本的数量，则可以使用overall accuracy来评估故障诊断模型的分类性能。然而，在测试集中，发动机的故障样本数量远小于正常样本数量，详见表1。在这种情况下，overall accuracy没有重要的参考价值。例如，在测试集中，正常样本数为197，而排气温度指示故障样本和进口总温指示故障样本的数目总和也仅为13。即使所有测试样本都被诊断为正常样本，overallaccuracy仍然高达93.81％。本申请选择混淆矩阵来评估故障诊断模型，如表3所示。

表3：混淆矩阵

并且，正常样本、排气温度指示故障样本以及进口总温指示故障样本的诊断效果可以分别用TNR、TER和TTR来评估，而模型的整体诊断效果则可以用三者的平均值来评估，记为Average accuracy。根据混淆矩阵，这些指标可以简单地计算出来，具体的计算公式如下所示：

为了验证所提TSC-DSSAN模型的有效性，本申请构建了三组对比实验。在第一组对比实验中，直接使用流行的神经网络分类模型对监测数据进行诊断，选择的分类模型包括卷积神经网络(convolutional neural network， ConvNet)、RNN、长短期记忆网络(longshort-term memory network，LSTM)、 GRU以及SANet。在第二组对比实验中，将过采样技术(oversampling，OS)与SANet相结合，记为OS-SANet。过采样技术由imblearn包中的SMOTE实现，经过过采样之后三种类型的样本数目均为787个。而在第三组对比实验中，将降采样技术(downsampling,DS)与SANet相结合，记为DS-SANet。降采样技术由 imblearn包中的ClusterCentroids实现，经过降采样之后三种类型的样本数目均为20个。

通过使用不同的训练样本进行了五次实验，每次实验结果的TER和TTR，如图5至图6所示。

表4展示了评价指标TNR、TER以及TTR在五折交叉实验上的平均值，可以得到如下结论。第一，与ConvNet、RNN、LSTM以及GRU相比，SANet在Average accuracy上获得了最佳结果。更具体地说，在测试集中SANet的Average accuracy分别提高了4.17％、3.68％、3.36％以及0.64％。显然，SANet得益于多头注意力机制层。也就是说，多头注意力机制层可以从多维时间序列中捕获更多潜在的重要信息，因此这非常适合于发动机的监测数据。第二，与SANet相比，OS-SANet和DS-SANet在诊断性能上均有了较大提升，分别提升了4.44％和6.61％。在不均衡数据集上，无论是过采样还是欠采样都可以给分类模型带来增益，并且欠采样能带来更多的增益。一方面，这说明了平衡数据集的重要性，即平衡故障样本与正常样本之间的数目差异。另一方面，也是在构造样本对时对正常样本进行聚类而不是对故障样本进行增强的重要原因之一。第三， TSC-DSSAN模型在TER、TTR和Average accuracy三个评价指标上都取得了最佳结果。特别是Average accuracy，与ConvNet、RNN、LSTM、GRU、SANet、OS-SANet 以及DS-SANet相比，TSC-DSSAN模型分别提升了13.54％、13.05％、12.73％、10.01％、9.37％、4.93％和2.76％。孪生神经网络的策略是学习一种相似性度量，而不是直接学习样本的分类标签。说明在小样本多标签分类的问题上孪生神经网络的这种策略是更有效的。

表4：评价指标TNR、TER以及TTR在五折交叉实验上的平均值

鉴于ConvNet、RNN、LSTM以及GRU的性能不佳，以下的分析将不包括这四种模型。为了更加直观地观察到各个模型的故障诊断效果，图7展示了文中 SANet、OS-SANet、DS-SANet和TSC-DSSAN这四种方法在测试集上的混淆矩阵。我们可以清楚地看到各个模型在不同类型样本上的诊断准确率。以K＝5为例，四个模型的TER分别为57％、0.71％、86％以及100％。

通过t-SNE方法，将神经网络模型学到的高维特征映射到二维空间中，可以提供一种视角来观察测试样本在高维空间中的分布。本申请以K＝5为例进行分析。如图8所示，对于SANet、OS-SANet以及DC-SANet，排气温度指示故障样本和正常样本都有重叠，排气温度指示故障样本很容易被错分为正常样本。然而，对于TSC-DSSAN模型，排气温度指示故障样本和正常样本几乎没有重叠，更容易被诊断出来。

为了解决小样本条件下的多分类问题，本申请将时间序列聚类和孪生神经网络相结合，提出了一种新的故障诊断框架。框架中时间序列聚类用来获得正常样本的聚类中心，然后用聚类中心与故障样本配对，形成能够训练孪生神经网络的均衡的数据集。并且，训练完成的孪生神经网络可以度量待测样本与不同类型样本的相似性，从而确定待测样本的具体类型。此外，为了从多维时间序列中提取更加丰富时序特征，本申请使用自注意力网络作为孪生神经网络的特征提取模块。

利用燃气轮机的真实监测数据验证了TSC-DSSAN模型的有效性。与 ConvNet、RNN、LSTM、GRU、SANet、OS-SANet以及DS-SANet相比，TSC-DSSAN 模型在Average accuracy分别提升了13.54％、13.05％、12.73％、10.01％、9.37％、 4.93％和2.76％。一方面，模型中的自注意力网络适合处理燃气轮机的监测数据。另一方面，模型中的Siamese网络可以很好地度量样本对之间的相似性，从而判断该样本对是否属于同一类型。

本申请提出的故障诊断框架不仅仅是结合了时间序列聚类和DSSAN，而且也采取了许多tricks来提高小样本条件下的故障诊断性能。首先，只对正常样本进行了聚类，不对故障样进行聚类，目的是在保证训练样本均衡的条件下尽可能保留所有的故障信息。其次，采用提前终止策略，一旦超过20个Epochs 或者训练精度达到100％就终止训练，在一定程度上可以缓解过拟合问题。最后，利用五折交叉划分数据集来评估模型，可以避免固定划分数据集的局限性和随机性。

本申请提出了一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，该方法的核心是孪生神经网络，通过学习一种相似性度量来解决小样本条件下多标签分类问题。本申请可以有效地提高小样本条件下多故障分类的准确率。孪生神经网络的特征提取模块由SANet构成，可以从多维时间序列中提取更为丰富的时序特征。在发动机的故障诊断中，一方面，孪生神经网络的输入由样本变为样本对，通过样本之间的两两配对可以使得训练集中的样本量以平方级的形式增加。因此，训练集中的样本量得到了较大地扩充，这可以有效地缓解深度神经网络的过拟合问题。另一方面，孪生神经网络在训练阶段通过最小化对抗损失使得同一类型样本对的嵌入式表示在映射空间中彼此接近，而不同类型样本对的嵌入式表示彼此远离。也就是说，故障样本与正常样本属于不同类型的样本对，在映射空间中将会彼此远离，可以增强其可分性。SANet 可以同时提取时间序列的短期依赖和长期依赖，并在提取长期依赖方面优于 RNN模型。本申请使用SANet作为孪生神经网络的特征提取模块，以期学到更丰富的时序特征，进而提高不同类型样本在映射空间中的可分性。利用正常样本的聚类中心与故障样本构成的样本对来训练DSSAN，可以有效地缓解样本不均衡所带来的训练问题。对正常样本进行聚类，然后用聚类中心集合与故障样本集合两两匹配构成样本对。如果聚类中心的数目与故障样本的数目近似相等，那么同一类型和不同类型的样本对之间的不均衡率近似为1:1，从而可以有效地缓解样本不均衡所带来的训练问题。利用在发动机的真实监测数据对所提模型进行验证，表明TSC-DSSAN模型对故障样本的诊断效果更佳。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：采用时间序列聚类和孪生神经网络相结合，实现航空发动机小样本故障的诊断。

2.如权利要求1所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：包括训练阶段，训练阶段包括以下步骤：

步骤二，采用K-Means方法对正常样本

步骤三，将正常样本聚类中心的集合CPD_NOR，以及EIF样本的集合和TSIF样本的集合进行配对，构造用于训练DSSAN的样本对集合SD^(TRAIN)，执行步骤四；

步骤四：训练DSSAN模型1个Epoch；

特征提取模块将样本对

映射到相同的特征空间之中，进而生成各自的嵌入式表示

相似度计算模块计算嵌入式表示之间的距离

根据对比损失函数L_sia，优化DSSAN模型，执行步骤五；

步骤六：使用训练完成的模型进行航空发动机的故障诊断。

3.如权利要求1或2所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：还包括测试阶；

段测试阶段：对于任意的测试样本

将其与集合

距离最相近的元素

最后判定

与FSS^*属于同一类型。

4.如权利要求2所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：

步骤一中，采集的数据包括排气温度裕度(EGTM)、排气温度偏差值(DEGT)、核心机转速偏差值(DN2)、燃油流量偏差值(DFF)；

式中，m_k表示第k台发动机发生故障之前的飞行循环总数；

当p＝1时，FSS_k，p表示故障样本；当

时，FSS_k，p表示正常样本；

步骤103，将正常样本组成的集合记为

表示第i个正常样本；

将排气温度指示故障样本组成的集合记为

表示第i个排气温度指示故障样本；

将进口总温指示故障样本组成的集合记为

表示第i个进口总温指示故障样本；

N_NOR、N_EIF和N_TSIF分别表示各类型样本的总数；

采取五折交叉的方式来划分数据集，对于每一次划分，N_NOR，N_EIF和N_TSIF按照8：2的比例分为两个部分，

即

和

则训练集为

测试集为

5.权利要求2所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：

步骤二中，采用K-Means方法用于正常样本的聚类，构成正常样本聚类中心的集合CPD_NOR；

对正常样本

进行聚类的方法为：

假设

聚类成

个簇,簇的集合为

则聚类的目标是最小化簇内平方距离和：

式中，

为第i簇

的聚类中心。

6.如权利要求2所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：步骤三中，由步骤二聚类得到的正常样本聚类中心的集合CPD_NOR、与EIF样本集合和TSIF样本集合共同组成用于训练DSSAN模型的样本对集合SD^(TRAIN)；

并且样本对

如果CPD_NOR中的样本数目与

和

中的样本数目近似相等，则标签为1的样本对个数为：

而标签为0的样本对个数为：

则标签为1和标签为0的样本对的不均衡率近似为：

7.如权利要求2所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：步骤四中，DSSAN模型包括特征提取模块和相似度计算模块，特征提取模块包括两个SANet；

8.如权利要求7所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：SANet包括两个Encoder层和一个全连接层；

多头注意力机制包括多个自注意力模块；

多头注意力机制的函数表达式为：

式中，Q_k，K_k，V_k是输入FSS_k经过编码得到EFSS_k，再经过线性变换得到的Query,Key,Value，即Q_k＝EFSS_kW^Q，K_k＝EFSS_kW^K，V_k＝EFSS_kW^V，W^Q，W^K，W^V，

W^O表示线性映射，

是Q_k的维度。

9.如权利要求8所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：层正则化使得同一层的所有节点共享相同的均值和方差，不同的样本可以有不同的均值与方差，层正则化的计算公式如下所示：

式中，

全连接前馈层包括两个线性变换，计算公式如下所示：

FFN(MH_k)＝(MH_kW₁+b₁)σ(1.702(MH_kW₁+b₁))W₂+b₂

式中，W₁，W₂表示线性变换，b₁，b₂表示偏置，σ(·)表示LogisticDistribution的累积分布函数。

10.如权利要求7所述的一种基于深度孪生自注意力网络的航空发动机小样本故障诊断方法，其特征在于：相似度计算模块通过计算嵌入式表示之间的简单距离来表示样本对之间的相似性，采用欧氏距离D_E(·，·)；

对抗损失定义如下：

式中，d表示一个阈值，将属于不同类型的嵌入式表示的欧氏距离限制在[0，d]之间,即当距离超过d时，则将其损失设置为0；

在训练的过程中，如果样本对

属于同一类型，则距离

就会越来越小，即

之间相似性越来越高；反之样本对

不属于同一类型，距离

就会越来越大，即

之间相似性就越来越低。