CN112906739B

CN112906739B - 基于多头注意力及轴系设备周期性的故障诊断方法

Info

Publication number: CN112906739B
Application number: CN202110062687.1A
Authority: CN
Inventors: 冯肖亮; 赵广; 闫晶晶; 马利; 吴兰
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-11-05
Anticipated expiration: 2041-01-18
Also published as: CN112906739A

Abstract

本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法。该方法包括：步骤1：采集轴系设备若干个周期的待诊断样本，在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理；步骤2：将标准化处理后的样本数据作为多头注意力故障诊断模型的输入，得到故障诊断结果。针对轴系设备振动信号具有周期性、非线性、耦合性的特点，本发明将轴系设备的周期性特征融入到时域故障信号数据中，用两种位置编码区分长距离信息的方向性，具有较强的长距离信息提取能力和较高的并行计算能力。

Description

基于多头注意力及轴系设备周期性的故障诊断方法

技术领域

本发明涉及轴系设备故障诊断技术领域，尤其涉及一种基于多头注意力及轴系设备周期性的故障诊断方法。

背景技术

随着生产发展和科学技术的现代化，使得现代机械设备的结构愈加复杂，各种各样的功能也愈发全面，机械设备自动化的程度也在不断的提高，而轴系设备是其中重要的组成结构。由于许多因素的影响，轴系设备具有其使用寿命，且容易发生故障，可能导致降低其预期功效，停止运转等，甚至造成更严重的灾难性事故。因此，及时发现故障，识别故障类型，不仅有助于延长其使用寿命，也能够有效的避免危险事故的发生。

随着计算机计算能力的不断提升，以及工业监测技术的成熟，在工业领域运用大数据方法对所监测的数据进行分析挖掘，利用数据中潜在的价值信息进行故障诊断有着重要的研究意义，基于数据驱动的故障诊断算法受到越来越多的关注。深度学习是一种基于数据进行表征学习的方法，非常适合于提取大数据特征，进行故障诊断。但是现有的基于深度学习的故障诊断方法，大多是基于卷积神经网络(CNN)和循环神经网络(RNN)框架下的方法(例如，文献1：Abdeljaber O,Avci O,Kiranyaz S,et al.Real-time vibration-basedstructural damage detection using one-dimensional convolutional neuralnetworks[J].Journal of Sound&Vibration, 2017,388:154-170；文献2：Yu J,ZhouX.One-Dimensional Residual Convolutional Autoencoder Based Feature Learningfor Gearbox Fault Diagnosis[J].IEEE Transactions on Industrial Informatics,2020,16(10):6347-6358)。卷积神经网络是一种并行计算的模型，非常适合于GPU的分布式并行计算。但是由于其受制于卷积核的大小，不能完整的提取长距离信息，在轴系设备故障诊断的应用中会出现分类精度低，学习曲线不平稳等缺点。循环神经网络以及其改进模型长短记忆网络(LSTM)(采用该类型网络的方法如文献3：张建付,宋雨,李刚,王传洋,焦亚菲. 基于长短时记忆神经网络的风电机组滚动轴承故障诊断方法[J].计算机测量与控制,2017,25(01):16-19；文献4：Yue G,Ping G,Lanxin L.An End-to-End model based onCNN-LSTM for Industrial Fault Diagnosis and Prognosis[C]//2018 InternationalConference on Network Infrastructure and Digital Content(IC-NIDC). 2018；)擅长提取长距离信息，但是由于其当前计算依赖于上一时刻的计算结果，它必须逐个单元计算，这严重阻碍了GPU并行性的充分发挥。所以在轴系设备的故障诊断中，寻找一种提取长距离信息能力强，并行计算程度高的方法是非常有必要的。

发明内容

针对传统故障诊断方法存在的提取长距离相关性信息困难，或者并行计算程度低的问题，本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法，至少部分地上述问题。

本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法，包括：

步骤1：采集轴系设备若干个周期的待诊断样本，在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理；

步骤2：将标准化处理后的样本数据作为多头注意力故障诊断模型的输入，得到故障诊断结果。

进一步地，所述多头注意力故障诊断模型的离线训练过程包括以下步骤：

步骤A1：通过m个传感器对轴系设备进行nT次独立采样，得到轴系设备的历史数据矩阵X₀，并在矩阵X₀中加入轴系设备的周期信息；所述历史数据矩阵X₀的每一行代表由m个传感器在同一时刻下采集到的测量数据组成的一个样本，每一列代表一个传感器在不同时刻下采集到的nT个测量数据，T为轴系设备旋转一周所采集的样本个数；m和n均为正整数；

步骤A2：对加入轴系设备的周期信息后的历史数据矩阵X₀进行标准化处理，得到标准化处理后的矩阵X₁；

步骤A3：采用第一前馈网络，且不使用激活函数，根据矩阵X₁生成新的矩阵

其中，所述第一前馈网络为全连接的前馈网络，N表示第一前馈网络的神经元个数，D_x＝m+1；

步骤A4：对矩阵X₂按照第一位置编码方式进行位置编码，得到新的矩阵

步骤A5：将矩阵X₃送入由num层多头自注意力层堆叠而成的网络层，并在所述网络层引入第二位置编码方式，然后按照第二位置编码方式对所述网络层的数据进行位置编码；

步骤A6：将步骤A5中的运算结果送入第二前馈网络，且采用relu函数激活，再进行Flatten操作，将结果展平成二维，最后经过一个含有n_class个神经元的前馈网络，且采用Softmax函数激活，输出分类结果；其中，n_class表示故障模式的类型个数；

步骤A7：重复步骤A3到步骤A6，直到故障分类精度达到要求，或迭代次数达到设定次数。

进一步地，步骤A2中，对所述历史数据矩阵X₀按照公式(2)进行标准化处理：

X_1k＝(X_0k-X_0k_mean)/X_0k_std (2)

其中，X_1k表示矩阵X₁的第k列元素，X_0k表示矩阵X₀的第k列元素，X_0k_mean 表示第k列元素的均值，X_0k_std表示第k列元素的标准差，k＝1,2，…m。

进一步地，还包括对矩阵X₁进行扩维，将矩阵X₁的大小变为(m,nT+1,1)，具体包括：

X₁＝[x₁₁,x₁₂,…,x_1m]，其中

的每一个元素都是一个D_x行1列的矩阵。

进一步地，步骤A3中，按照公式(3)根据矩阵X₁生成新的矩阵 X₂＝[x₂₁,x₂₂,…,x_2m]：

x_2m＝x_1mω+b (3)

其中，ω∈R^1×N，ω和b是全连接层的可训练参数。

进一步地，步骤A4中，所述第一位置编码方式如公式(4)所示：

其中，

pos是一个在[0,D_x]内的序列数组，j是一个在[0,N/2]范围内的序列数组，T₁ 是缩放因子。

进一步地，步骤A5中，每层所述多头自注意力层包括第一子层和第二子层，第一子层为multi-head attention机制层，第二子层为位置完全连接的前馈网络；第一子层和第二子层后端均采用一个残差连接，然后进行层标准化。

进一步地，所述第一子层对矩阵X₃的处理过程包括：

步骤B1：按照公式(5)对输入向量X₃投影到三个不同的向量空间Q、K和V 中：

其中，W_q、W_k和W_v表示第一子层的可训练参数；

步骤B2：根据多头注意力层的头数M按照公式(6)对向量空间Q、K和V进行分头操作，并按照公式(7)交换维度次序：

其中，i＝1,2,...,M；

步骤B3：按照公式(8)对各个Q_i、K_i和V_i进行线性加权运算，得到对应的运算结果H_i；或者，按照公式(9)对各个Q_i、K_i和V_i进行扩大点积运算，得到对应的运算结果H_i：

其中，

μ_i和η是第一子层的可训练参数矩阵，

公式(8)和公式(9)中的PE^*表示公式(10)所示的第二位置编码方式；pos是一个在[0,D_x]内的序列数组，j是一个在[0,N/2]范围内的序列数组；

步骤B4：将多个运算结果H_i按照公式(12)进行拼接组合得到多头注意力MultiHead(H)：

MultiHead(H)＝Concat[H₁,...,H_M]·W₀ (12)

其中，W₀∈R^N×N是第一子层的可训练参数，

进一步地，所述多头注意力故障诊断模型的离线训练过程还包括：

步骤A9：通过m个传感器对轴系设备进行采样，得到新的样本数据作为验证集，在所述验证集中加入轴系设备的周期性信息后进行标准化处理，将标准化处理后的样本数据输入步骤A8得到的模型，然后对模型性能进行评估，若模型性能达到设定要求，则模型的离线训练过程结束。

进一步地，所述多头注意力故障诊断模型的离线训练过程中，采用交叉熵损失函数作为损失函数。

本发明的有益效果：

(1)将轴系设备的周期性信息融入数据中，使用扩大点积注意力与线性加权注意力来消除多头注意力的低秩瓶颈问题，从而取得了更好的故障诊断效果。

(2)注意力机制能借由注意力权重矩阵计算出相应的注意力特征，进而模型在训练阶段能关注重点特征，减少冗余和非敏感特征对模型的影响。

(3)在处理长距离信息的问题中，当前时刻的信息有时不仅与前面的信息有关，还可能和未来的信息有关。但在多头注意力网络中，区分信息的方向却并不容易。本发明在权重矩阵引入PE^*，注意力机制将可以较为容易的区分不同方向的信息。

(4)轴系设备在工作过程中测取的振动信号，其数据间存在着复杂的非线性、耦合关系，属于存在长距离相关性的时序信息。在深度学习的故障诊断方法中，CNN并行计算程度高，但受卷积核大小的限制，提取长距离信息的能力不强。RNN提取长距离信息的能力强，但由于其当前时刻的计算依赖于上一时刻的计算结果，它必须逐个单元计算，这严重阻碍了GPU并行性的充分发挥。本发明所提出的故障诊断方法，跳出了CNN和RNN的框架，用一种带有注意力机制的全连接网络，既具有提取长距离信息能力强的特点，也有并行计算程度高，适合GPU运算的特点，而且又考虑了轴系设备周期性，是现在较为先进的故障诊断方案。

附图说明

图1为本发明实施例提供的多头注意力故障诊断模型的结构示意图；

图2为现有技术提供的ZHS-2型多功能电机柔性转子试验台的结构示意图；

图3为本发明实施例提供的线性加权注意力机制和扩展点积注意力机制的示意图；

图4为本发明实施例提供的七种深度学习模型在测试集上的学习曲线；

图5为本发明实施例提供的五种多头注意力模型在测试集上的学习曲线；

图6为本发明实施例提供的Bi_P_EX-MHA与P_EX-MHA在测试集上的学习曲线对比；

图7为本发明实施例提供的Bi_P_L-MHA模型在验证集上的混淆矩阵。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供一种基于多头注意力及轴系设备周期性的故障诊断方法，包括：

S101：采集轴系设备若干个周期的待诊断样本，在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理；

S102：将标准化处理后的样本数据作为多头注意力故障诊断模型的输入，得到故障诊断结果。

具体地，所述多头注意力故障诊断模型的结构如图1所示，所述多头注意力故障诊断模型的离线训练过程包括以下步骤：

步骤A1：通过m个传感器对轴系设备进行nT次独立采样，得到轴系设备的历史数据矩阵X₀，并在矩阵X₀中加入轴系设备的周期信息；所述历史数据矩阵X₀的每一行代表由m个传感器在同一时刻下采集到的测量数据组成的一个样本，每一列代表一个传感器在不同时刻下采集到的nT个测量数据，T为轴系设备旋转一周所采集的样本个数；m和n均为正整数；n表示测量了n个周期T的数据；

步骤A2：对加入轴系设备的周期信息后的所述历史数据矩阵X₀进行标准化处理，得到标准化处理后的矩阵X₁；

步骤A5：将矩阵X₃送入由num层多头自注意力层堆叠而成的网络层，并在所述网络层引入第二位置编码方式，然后按照第二位置编码方式对所述网络层的数据进行位置编码；通过第一位置编码方式和第二位置编码方式区分信息方向，信息方向包括当前时刻之前的信息和当前时刻之后的信息；

针对轴系设备振动信号具有周期性、非线性、耦合性的特点，本发明实施例提供的基于多头注意力及轴系设备周期性的故障诊断方法，将轴系设备的周期性特征融入到时域故障信号数据中。另外，用两种位置编码区分长距离信息的方向性，具有较强的长距离信息提取能力和较高的并行计算能力。

实施例2

为了进一步对本发明的故障诊断方法进行阐述，本发明实施例还提供有以下可实施方式：

以ZHS-2型多功能电机柔性转子试验台作为轴系设备为例，试验台结构如图2所示。本实施例中，使用8个安装在转子支撑座的水平方向的振动加速度传感器采集试验台的待诊断样本，具体而言，该待诊断样本为该试验台转子的时域振动信号，信号通过HG8902采集箱传输至上位机。

该试验台可以模拟轴系设备多种运行模式，包括转子不平衡故障模式、滚珠故障模式、风机断叶故障模式、基座松动故障模式、齿轮断齿故障模式和正常运行模式等，本实施例采取七种运行模式：转子不平衡(1颗螺钉)、转子不平衡(3 颗螺钉)、转子不平衡(5颗螺钉)、转子不平衡(7颗螺钉)、风机断叶故障模式、基座松动故障模式和正常运行模式。

在该电机转子系统中，传感器采集的振动信号可以反映出人为设置的运行模式所引发的不正常振动，不同运行模式下，设备的振动幅值会发生一定的变化。设定电机转子转速为1500r/m，传感器的系统误差根据其生产厂商提供的精度设定为△＝±1％。在每种模式下，连续采集240s共3072000个数据点。电机转子转速为1500r/m，则电机每秒25转，每个传感器在240s收集到3072000个数据点，则电机每转一圈，每个传感器收集到3072000/(25*240)＝512个数据。则电机每转一圈，8个传感器收集到512*8＝4096个数据。为了扩大单个样本，模拟更多传感器的大型设备，提高训练效率，这里我们对样本做了折段处理，增大单个样本，取每行数据有8倍个原样本，即每行有8*8＝64个数据，则每转有4096/64＝64 个样本。

在上述设定数据的基础上，本发明实施例具体包括以下步骤：

步骤S201：获得转子平台上所安装的m(该实施例中，m＝8)个传感器进行的nT次独立采样所构成的历史数据矩阵X₀，然后针对该矩阵X₀，给同一旋转圈数的样本加入周期信息1，2…T，得到具有轴系设备的周期信息的矩阵X₀，如公式(1)所示：

在x_0m(nT)中，m＝64，T＝64，n＝3072000/(8*64)＝6000。

本发明实施例将轴系设备周期性的特点融入时域故障信号中，增强了模型对故障信号的提取能力。

步骤S202：为了消除因量纲不同引起的误差的影响，在进行故障诊断前对矩阵X₀需进行相应的标准化处理，具体为按照公式(2)进行标准化处理：

X_1k＝(X_0k-X_0k_mean)/X_0k_std (2)

公式(2)表示X₀的每一列都减去本列的均值，除以本列的标准差，得到新的矩阵X₁。其中X_0k代表矩阵X₀第k列元素，X_0k_mean代表矩阵X₀第k列元素的均值，X_0k_std代表矩阵X₀第k列元素的标准差，X_1k代表矩阵X₁第k列元素， k＝1,2，…m。

步骤S203：为了提取样本矩阵中更多的信息，对矩阵X₁进行扩维，将X₁的大小变为(m,nT+1,1)，X₁＝[x₁₁,x₁₂,…,x_1m]，其中

的每一个元素都是一个D_x行1列的矩阵。其中，D_x＝m+1，在这里，D_x＝65。

步骤S204：采用全连接的前馈网络，且不使用激活函数，根据矩阵X₁生成新的矩阵X₂＝[x₂₁,x₂₂,…,x_2m]：

x_2m＝x_1mω+b (3)

其中，ω∈R^1×N，ω和b是全连接层的可训练参数。b是偏置参数，在这里设为0。

步骤S205：对矩阵X₂按照第一位置编码方式进行位置编码，得到新的矩阵

所述第一位置编码方式如公式(4)所示：

其中，

pos是一个在[0,D_x]内的序列数组，j是一个在[0,N/2]范围内的序列数组，T₁ 是一个缩放因子，一般取T₁ ＝10000，用来调节相邻元素的位置差异。当T₁ 比较大的时候，相邻元素的位置编码之间的差异会更小。

将经全连接层投影后的

与该位置信息求和。对于单个样本

有

得到X₃。

步骤S206：将矩阵X₃送入由num(本实施例中，num＝2)层多头自注意力层堆叠而成的网络层，并在所述网络层引入第二位置编码方式，然后按照第二位置编码方式对所述网络层的数据进行位置编码；

具体地，每层所述多头自注意力层包括第一子层和第二子层，第一子层为 multi-head attention机制层，第二子层为位置完全连接的前馈网络；

第一子层和第二子层后端均采用一个残差连接，然后进行层标准化。如此，可以抑制网络退化和梯度弥散问题。具体而言，假设x是每个子层的输入，每个子层的输出则是LayerNorm(x+Sublayer(x))，其中Sublayer(x)是由子层本身实现的函数。为了方便这些残差连接的使用，模型中的所有子层以及嵌入层产生的输出维度都为N。

具体地，第一子层的输出X_sublayer1可以表示为： X_sublayer1＝LayerNorm(MultiHead(H))+X₃；第二子层的输出X_sublayer2可以表示为： X_sublayer2＝LayerNorm(FFN(X_sublayer1))+X_sublayer1。其中FFN代表第二子层中的2层前馈神经网络，LayerNorm代表层标准化。

作为一种可实施方式，所述第一子层(Sublayer1)对矩阵X₃的处理过程包括：

其中，W_q、W_k和W_v表示第一子层的可训练参数；

步骤B2：根据多头注意力层的头数M(本实施例中，M＝8)按照公式(6) 对向量空间Q、K和V进行分头操作，并按照公式(7)交换维度次序：

公式(6)和公式(7)中，i＝1,2,...,M；

步骤B3：如图3所示，按照公式(8)对各个Q_i、K_i和V_i进行线性加权运算，得到对应的运算结果H_i；或者，按照公式(9)对各个Q_i、K_i和V_i进行扩大点积运算，得到对应的运算结果H_i，

其中，i＝1,2,...,M。

μ_i和η是第一子层的可训练参数矩阵，

公式(8)和公式(9)中的PE^*表示公式(10)所示的第二位置编码方式，pos是一个在[0,D_x]内的序列，d_model＝N；在处理长距离相关信息的问题中，当前时刻的信息有时不仅与前面的信息有关，还可能和未来的信息有关。双向LSTM可以从信息的两侧有区别的收集信息，但在多头注意力网络中，区分信息的方向却并不容易。在构建注意力权重矩阵过程中，又引入了如下一类位置编码方式：

公式(10)中的pos,D_x,N，j与公式(4)相同。

在普通多头注意力机制的实际应用中，缩放点积注意力的权重为：

该权重公式中，

相当于用Q_i,K_i描述的一个二元分布，weights矩阵中的各个元素反映了D_x个元素之间的相互关系。在多头注意力模型中，为了保证模型训练的稳定性，要使用残差结构，即实现LayerNorm(X+H)，这就必须保证输入数据X与输出数据H的维度保持相同，即

又由于

一般的有N/M＜＜D_x。Q_i,K_i的参数总量2×D_x×(N/M)小于weights的参数总量D_x×D_x，这就造成了Q_i,K_i对weights建模的低秩瓶颈。而本发明实施例通过使用扩大点积和线性加权两种注意力机制，可以将Q_i,K_i的参数总量增大为2×D_x×D_x，超过了weights矩阵的参数总量D_x×D_x，因此本实施例利用线性加权注意力和扩展点积注意力两种注意力方式可以解决注意力机制中的低秩瓶颈问题。

此外，在处理长距离信息的问题中，当前时刻的信息有时不仅与当前时刻之前的历史信息有关，还可能和当前时刻之后的未来信息有关。在多头注意力网络中，区分信息的方向却并不容易。而本发明实施例通过引入第二位置编码方式，如公式(1)所示，公式(11)中的pos,D_x,d_model与公式(4)相同，由cos(-x)＝cos(x), sin(-x)＝-sin(x)，可得：

由此可见，本发明实施例通过引入两种不同的位置编码方式，使用PE与PE^*，注意力机制将可以较为容易的区分不同的信息方向。

MultiHead(H)＝Concat[H₁,...,H_M]·W₀ (12)

其中，W₀∈R^N×N是第一子层的可训练参数，

作为一种可实施方式，第二子层(Sublayer2)是一个简单的、位置完全连接的前馈神经网络。该子层包括2层前馈神经网络，这两层神经元个数是超参数，可以按需要指定。在这里，取第一层有2N个神经元，第二层有N个神经元。其中第二层使用激活函数relu。MultiHead(H)经过第二子层后大小不变。

步骤S207：将步骤S206中的运算结果送入第二前馈网络，且采用relu函数激活，再进行Flatten操作，将结果展平成二维，最后经过一个含有n_class个神经元的前馈网络，且采用Softmax函数激活，输出分类结果；其中，n_class表示故障模式的类型个数；由于前面已经预先设定了7种故障模式，因此此处n_class＝7。

信号在神经网络的输出应该与目标值一致，评价这种一致性的函数叫做损失函数(Loss Function)。本模型采用的损失函数是交叉熵损失函数(Cross-entropy LossFunction)。假设信号在神经网络的softmax输出为Q(x)，其目标值为P(x)。

则交叉熵损失函数为

训练的目标就是尽可能地降低Loss，Loss越低表明模型的输出值与真实值就越接近。为了更好地训练模型，本实施例中采用了Adam优化器来对模型进行优化。

步骤S208：重复步骤S204至步骤S207，直到故障分类精度达到要求，或迭代次数达到设定次数。

步骤S209：通过m个传感器对轴系设备进行采样，得到新的样本数据作为验证集，在所述验证集中加入轴系设备的周期性信息后进行标准化处理，将标准化处理后的样本数据输入步骤S208得到的模型，然后对模型性能进行评估，若模型性能达到设定要求，则模型的离线训练过程结束，可投入实际的生产过程中进行在线故障诊断。

本发明提出的故障诊断方法，分为离线建模训练和在线诊断两个阶段。离线建模训练阶段，利用所收集的历史趋势，报表等故障数据加入旋转设备的周期性信息后，对数据进行标准化处理，作为模型的输入。模型训练完毕之后，通过验证集对诊断结果进行评估，如其能达到预定的精度要求，将其放入现场，进行在线诊断。进行在线故障诊断时，从实际生产过程中采集待诊断样本，加入周期信息，进行数据标准化处理后作为模型输入，通过多头注意力模型诊断出故障的类型。

为了进一步验证本发明方法的有效性，本发明还提供有以下实验数据。

实验平台配置为Inter i7-9700k，16GB DDR4 RAM，NVIDIA GTX2080Ti，使用开源框架TensorFlow实现。实验采用小批量的训练方法和Adam梯度优化方法。设置批次大小为128，迭代训练30次。选取了常见的几种深度模型作为对照组，分别是文献1中的Abdeljaber的方法，(1D-CNN，第一层卷积核个数为16，大小为16，2层卷积，2层最大池化)。文献2JianboYu的方法(第一层卷积核个数为16，大小为16，包含两层残差结构的1D-CNN网络，每层残差结构包含三个卷积&BN层)。文献3Zhang的方法(2层双向LSTM,神经元个数分别为 128，32)。文献4Yue G的方法(CNN-LSTM网络，卷积层卷积核个数为16，卷积核大小为16，LSTM层有64个神经元)。使用F1分数为综合评价指标，公式如下：

其中，Precision和Recall分别是分类的精确度和召回率。

图4是在测试集上，七种深度学习网络训练30次学习曲线的对比。分别是使用正余弦编码的多头注意力网络(MHA)，使用旋转设备周期性信息和两种位置编码的扩大点积注意力网络(Bi_P_EX-MHA)，使用旋转设备周期性信息和两种位置编码的线性加权点积注意力网络(Bi_P_L-MHA)，长短期记忆神经网络(Zhang)，一维卷积神经网络(Abdeljaber)，两层残差结构的一维卷积网络(Jianbo Yu)，卷积-长短期记忆神经网络(Yue G)学习曲线对比。

表1是9种模型在验证集的故障诊断结果。RandomForest为使用50颗树的随机森林，LR为线性回归模型。

表1 9种深度学习模型在验证集上的诊断效果

模型	精确度	召回率	F1分数
				MHA	0.953	0.952	0.952
Bi_P_EX-MHA	0.982	0.982	0.982
				Bi_P_L-MHA	0.980	0.980	0.980
Zhang	0.976	0.976	0.976
				Abdeljaber	0.842	0.826	0.819
Jianbo Yu	0.946	0.944	0.943
				Yue G	0.973	0.973	0.973
RandomForest	0.684	0.683	0.682
				LR	0.828	0.829	0.824

从图4与表1结果可知，LSTM(Zhang,Yue G)网络擅长捕捉长距离信息，在故障诊断方面可以取得很高的准确率。但LSTM是一种串行模型，由于其当前计算依赖于上一时刻的计算结果，它必须逐个单元计算，这严重阻碍了GPU并行性的充分发挥。MHA网络在改进位置编码前，准确率不如LSTM网络。 Bi_P_EX-MHA与Bi_P_L-MHA改进了模型，加入了轴系设备的周期性信息，分类准确率大大提高了。CNN网络以及增加了网络深度的RES_CNN网络虽然提取特征能力也很强，但不够稳定。其原因是其特征提取能力受制于卷积核的大小，虽然增加网络深度可以提高其捕捉特征的能力，但是其捕捉是基于随机搜索，缺乏指导性，当其未捕捉到长距离相关信息时，分类准确率会下降。两种常用机器学习模型随机森林和线性回归在分类精度上总体不如深度模型。

下面讨论增加周期性信息，以及使用扩大点积和线性加权注意力对模型的影响。

表2五种多头注意力模型在验证集上的诊断效果

模型	精确度	召回率	F1分数
				MHA	0.953	0.952	0.952
EX-MHA	0.978	0.978	0.978
				L-MHA	0.978	0.978	0.978
Periodic_EX-MHA	0.982	0.982	0.982
				Periodic_L-MHA	0.980	0.980	0.980

图5与表2中，MHA为正常的多头注意力网络，Ex-MHA为未使用周期信息的扩大点积多头注意力网络，Line-MHA为未使用周期信息的线性加权多头注意力网络，Periodic_EX-MHA为使用旋转设备周期性信息的扩大点积多头注意力网络，Periodic_L-MHA为使用旋转设备周期性信息的线性加权多头注意力网络。从图5与表2结果可知，使用扩大点积与线性加权多头注意力可以改善多头注意力的低秩瓶颈问题，从而提高分类精度。使用旋转设备的周期性信息可以进一步提高多头注意力网络的分类精度。

下面讨论使用双向位置编码对模型的影响。图6为双向周期-扩大点积注意力(Bi_P_EX-MHA)与周期-扩大点积注意力(P_EX-MHA)两种方法在测试集上的学习曲线对比。其中Bi_P_EX-MHA的权重矩阵使用了公式(10)中的位置编码，P_EX-MHA没有使用公式(10)的位置编码。

可以看出，使用公式(10)后的Bi_P_EX-MHA能有更快的收敛速度和更高的精确率。

Bi_P_EX-MHA与Bi_P_L-MHA的训练时间的比较如下表。可以看出，线性加权注意力机制缩减了计算复杂度，其训练速度比扩大点积注意力快。

表3两种多头注意力模型训练时间的比较

模型	训练次数	每次训练所需时间	总训练时间
				Bi_P_EX-MHA	30	17s	510s
Bi_P_L-MHA	30	19s	590s

图7为在把3200个验证集样本带入Bi_P_L-MHA得到的混淆矩阵。可以看到，在7种状态的故障诊断上，改进后的多头注意力模型在验证集上的平均准确率达到了98％以上。

表4 Bi_P_L-MHA模型在验证集的混淆矩阵参数

故障类型	精确度	召回率	F1分数
				bph1	0.9689	0.9428	0.9557
bph3	0.9991	0.9950	0.9970
				bph5	0.9455	0.9700	0.9576
bph7	1.0000	1.0000	1.0000
				jzsd	0.9956	0.9834	0.9895
fjdy	0.9905	0.9756	0.9830
				zc	0.9646	0.9950	0.9796

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。