CN115640531A

CN115640531A - 一种基于残差学习与注意力机制融合的故障诊断方法

Info

Publication number: CN115640531A
Application number: CN202211371899.9A
Authority: CN
Inventors: 王华庆; 付振宝; 宋浏阳; 徐智涛
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-01-24

Abstract

本发明公开了一种基于残差学习与注意力机制融合的故障诊断方法。步骤：(1)将采集到的多个传感器原始信号数据进行融合，然后进行归一化处理并归一化后数据转换为二维灰度图数据集作为模型的输入；(2)搭建模型，包含倒瓶颈结构残差块、自注意力与卷积结合残差块(CA)、挤压和激励网络残差块(SE)和多层感知机分类器(MLP)组成；(3)倒瓶颈结构残差块提取样本特征，CA丰富提取的故障特征；(4)SE利用通道挤压与激励操作着重处理有用特征，忽视无效特征；(5)MLP将输出各个故障类别；(6)通过每轮迭代交叉熵所得损失，反向传播至模型更新参数。当迭代最终次数时，确定网络模型用以故障类型识别。本发明提取更多有效信息，运算速度更快，识别率更高。

Description

一种基于残差学习与注意力机制融合的故障诊断方法

技术领域

本发明针对工业应用中设备故障的多样性与复杂性，利用深度学习模型将多残差块结构神经网络的故障诊断方法，属于故障诊断领域。

背景技术

在现代化产业不断发展的情况下，工业设备逐渐趋于精密化和复杂化，但伴随着结构复杂，导致设备极大可能出现故障问题，这将给企业带来极大损失甚至人员伤亡，因此故障诊断方法显得尤为重要。当滚动轴承出现疲劳、磨损、腐蚀等损坏时，随着机械设备的运行滚动轴承会产生一些额外的振动，因此可以采集轴承在运行中的振动信号并进行分析，判断轴承有无故障发生。基于振动信号的滚动轴承故障诊断研究可以分为两类，基于传统故障诊断方法和基于深度学习的故障诊断方法。传统依赖于专家知识的故障诊断方法往往存在知识获取“瓶颈”，缺乏有效的诊断知识表达方式，难以完成高精度故障诊断任务。因此如何减少专家知识的介入，基于监测数据自身包含的特征信息实现设备故障的高精度智能故障诊断，成为了现阶段的研究热点。

随着信息化的不断推动，深度学习故障诊断逐渐成为故障诊断领域中广泛使用的方法，利用深度学习能够从原始信号中自动学习数据特征，映射振动信号与轴承故障的复杂关系,可以快速有效利用振动信号监测轴承运行状态，不用人工进行特征提取，对于提升故障诊断的效率有着重要的研究意义。在早期深度学习故障诊断方法中出现了一些传统模型，比如支持向量机(SVM)、朴素贝叶斯、决策树等在当时发挥着一定的作用，由于受制于当初计算机硬件的运算能力和迭代方式的问题，无法准确识别复杂故障识别问题。后来卷积神经网路在计算机视觉、无人驾驶、医学图像等领域取得了不错的研究成果，并在深度学习故障诊断中得到了普遍应用。由此看出深度学习故障诊断领域中的潜力，但现阶段为了提高故障识别准确率，所提出的卷积神经网络模型都较为复杂，参数量多、网络层数不断加深、所需存储空间大，逐渐出现网络退化、过拟合等现象，因此后来有学者提出采用经典卷积神经网络模型残差网络来有效抑制网络退化的现象，并且该模型具有较好的灵活性，能够与各个模块结合实现所想要的效果。

在实际工业环境之中，设备零件往往处在恶劣环境之中，传感器采集的数据往往存在着诸多的干扰信息，为了能够抑制干扰信息，着重提取故障中的有效特征，采用将注意力机制与残差块进行结合的方式，并将故障类型有效地识别出来。相比普通卷积神经网络，能够提取更多有效信息，运算速度更快，识别率更高。

发明内容

本发明的目的在于提供了一种多残差模块相互结合的故障诊断方法，该方法将多个传感器采集的一维原始信号进行融合转换成特征明显的二维灰度图数据集，这将极大程度的保留特征信息，无需繁琐的参数调整，转化速率高，相比单个传感器采集的振动信号更具丰富的特征，且能有效抵抗干扰特征。该方法采用倒瓶颈残差块提取故障特征、自注意力与卷积相结合的残差块提取大量有效特征，丰富故障特征，将所得的信息进行整合送至挤压与激励(SE)残差块中进行集中处理，通过通道特征的变换操作，能够着重处理有效故障特征，忽视无效特征，最后准确输出复杂故障类型。

S1故障原始数据的采集

本发明为监测工业旋转设备在复杂工况下的不同工作运行状态，在设备故障位置附近安装多个加速度传感器，采用固定的采样频率与采样时间进行采集各种转速状态下的信号，并将所采集的多个传感器的振动信号进行融合传输到计算机中，在计算机中使用MATLAB软件对采集的信号进行数据预处理。

S2数据处理与样本构造

针对单个传感器采集的原始信号中存在的局限性问题，因此采用多个传感器信号相关性融合的方式。假定x₁(n),x₂(n),...,x_t(n)是由t个传感器采集的信号，其传感器i和传感器j之间的相关性可以表示如下：

其中，N代表信号总数，n表示信号长度，m为相关性计算中不同通道离散信号的时间坐标移动值。由于信号是多个传感器是同时采集的，且单个信号点很快被传感器采集，为了简单起见，k标记为0。因此多个传感器融合信号可以表示为：

针对个别数据值异常的情况，为了减少异常值带来的影响，将采集的原始数据进行归一化处理，最终利用MATLAB软件将其归一化后数据序列转换为224×224的灰度图作为模型的输入样本，每种故障类型内有680张灰度图，对原始数据利用公式(3)进行归一化，将数据归一化为[0,1]范围内的数据d，其公式如下所示：

其中Y表示原始融合数据，max(Y)与min(Y)分别代表原始数据值中的最大值与最小值。

S3通过改进的多残差神经网络模型完成分类

所建立的多残差神经网络模型结构主要包括四大部分组成，分别是倒瓶颈结构残差块、自注意力与卷积结合残差块(CA)、挤压与激励残差块(SE)和多层感知机分类器(MLP)组成。该模型结构诊断过程如下：

(1)将不同转速下的多个传感器原始信号先进行信号融合，再将融合后的信号处理成灰度图数据作为输入数据，将不同类别的灰度图利用Python软件中代码分别以0、1、2、3、…、C标签进行标记表示，C为类别数。

(2)在Python软件中的pytorch框架环境下对模型进行搭建，对网络模型参数进行初始化。主要包含倒瓶颈结构残差块、自注意力与卷积结合残差块(CA)、挤压与激励残差块(SE)和多层感知机分类器(MLP)四大部分；将四大部分按照介绍顺序依次组合，能够将故障特征信息得到充分处理。现对每部分进行详细介绍：

在倒瓶颈结构残差块中，其结构顺序依次是一个7×7卷积核的深度卷积层、批量归一化层、一个1×1卷积核的点卷积层、一个激活函数ReLU和一个1×1卷积核的点卷积层依次连接组成，该结构形状类似倒瓶颈形状，先采用大卷积核的深度卷积提取特征，大卷积核的卷积层具有很好的鲁棒性，后面利用点卷积层将深度卷积的各个通道特征进行汇总，有效防止信息丢失；在深度学习领域中，将深度卷积层与点卷积层组合结构也称为分组卷积，能够减少运算量，降低计算损耗。

在自注意力与卷积结合残差块(CA)中，其结构顺序主要是一个1×1卷积核的卷积层、批量归一化层、激活函数ReLU、一个自注意力机制与卷积的双分支结构、批量归一化层、激活函数ReLU、一个1×1卷积核的卷积层、批量归一化层和激活函数ReLU依次连接，其中自注意力机制与卷积双分支结构是由卷积操作与自注意力操作两个并行分支组成；在该模块中，首先共用前面1×1卷积层处理特征，然后分成两个卷积操作和自注意力操作分支，最后再使用一个1×1卷积核的卷积层将两个分支的特征聚合。该模块主要利用卷积与自注意力双分支处理特征，能够将卷积的特征提取能力与自注意力的局部集中特征处理能力结合，获得丰富故障特征，便于后续处理故障最相关特征。

挤压与激励残差块(SE)是属于注意力机制中常用的一种通道注意力机制，主要先通过一个基本残差块、挤压过程、激励过程所组成，基本残差块是由一层1×1卷积核的卷积层、批量归一化层、一层3×3卷积核的卷积层、批量归一化层、一层1×1卷积核的卷积层、批量归一化层依次连接而成，用来提取输入特征；而后经过挤压过程，其通过全局池化层将输入特征每个通道的二维特征压缩为1个实数，该实数具有全局的感受野，通道数保持不变；之后在激励过程中，第一个全连接层将C通道压缩为C/r个通道，降低计算量，其中r为缩放系数。经过在r的各种取值对比，最后得出r＝16时整体性能与计算效率最平衡。然后经过ReLU激活函数，进行第二个全连接层操作，使其恢复到原来C个通道，最后经过Sigmoid函数，最终得到一个向量，并与之前基本残差块结果进行相乘，完成通道注意力机制过程，从而将卷积与自注意力机制残差块所得到的丰富特征进行筛选，选择重要的故障特征并抑制与故障无关特征，以自动学习的方式获取重要特征。

MLP分类器主要由输入层、隐藏层和输出层所组成，为了减少参数量，输入层、隐藏层和输出层各自只采用一层全连接层组成，每两个全连接层之间采用ReLU激活函数进行非线性变换，其输出结果与实际标记故障类型进行对比，根据输出各个标签出现的概率值大小进行排序，最终得到最终的分类结果；MLP分类器是深度学习分类任务中效果不错的分类算法，在与上述几个残差块配合，能够提高诊断性能。

根据对故障类型所设置样本标签作为网络的输出对网络进行训练，网络迭代训练次数为30。MLP分类器的输出结果与实际标记故障类型进行对比，根据所得损失值进行反向传播更新参数，最终得到最终的分类结果。

S4模型参数的调整

在每轮最小批量值训练结束后，网络结构根据结果计算出所得的损失值，自动进行反向传播进行反馈，及时调整模型各部分参数，最终训练达到最终设定值时，则该模型完成训练，最终结束故障诊断过程。

与现有技术相比，本发明的创造性主要体现在：

本发明主要是针对工业环境中抑制所采集数据中的干扰信息及利用多残差块相结合神经网络模型的故障诊断方法。原始信号先信息融合然后经过数据归一化处理抑制异常数据值的干扰，将处理后的信号数据进行转换为二维灰度图，通过转换处理使得不同故障特征之间更加明显，放大不同故障之间的特征差异，使得多残差网络模型能够充分利用处理图片数据优势，自动提取输入数据特征，无需相关领域的知识基础。在该方法中将各个模块进行结合能够集中捕捉关键特征，忽视无效特征，各个残差块之中采用尽量少的激活函数，减少运算过程的运算量以及防止有用信息丢失，而且还可以通过不同模块组合为后续针对不同问题的智能故障诊断方法作铺垫。

附图说明

图1是本发明的多残差块结构神经网络的智能诊断方法流程图

图2是风电设备试验台的机构简图及传感器安装位置

图3是本发明的多残差块结构神经网络结构图

图4是卷积与自注意力双分支结构图

图5是所提方法在风电监测试验台的混淆矩阵

图6是所提方法分类T-SNE可视化

图7是所提方法分类准确率与损失曲线图

具体实施方式

下面依据附图与具体流程进行详细说明。

根据图1中多残差块结构神经网络的智能诊断方法流程图，其主要流程为：(1)首先通过安装在风电状态监测实验台上的多个传感器进行信号采集；(2)将采集的传感器信号进行数据融合然后经过数据归一化处理，将其归一化后数据转换为二维灰度图数据集形式；(3)将灰度图数据集输入到所设定的网络模型中如图1在虚线框架内为所提出的网络模型结构，依次通过倒瓶颈结构残差块、卷积和自注意力残差块(CA)、挤压与激励残差块(SE)；(4)最后依据模型所得结果进行损失值计算，及时反向传播，对网络模型的参数进行更新，不断进行训练。下面结合诊断方法流程图对多残差块结构神经网络结构图进行详细说明。

风电监测设备实验台中测试齿轮共有六种运行状态分别为轴承内圈失效齿轮断齿、轴承内圈失效齿轮正常、轴承内圈失效齿轮磨损、轴承外圈失效齿轮断齿、轴承外圈失效齿轮正常、轴承外圈失效齿轮磨损，分别将每种状态赋予0-5状态标签。三个加速度传感器安置位置分别在齿轮箱的上方与侧方以及轴承座的上方(CH1至CH3)，从而确保以最优路径采集各运转部件的状态信息。其信号转速为1500r/min，采样频率为10KHz。

所述步骤2)中对多个传感器采集信号进行相关性数据融合，其具体过程如下所述：

假定x₁(n),x₂(n),...,x_t(n)是由t个传感器采集的信号，其传感器i和传感器j之间的相关性可以表示如下：

将融合后的数据进行归一化处理，去除异常值的影响，将数据归一化为[0,1]范围内的数据d，其公式如下所示：

其中Y表示原始融合数据，max(Y)与min(Y)分别代表原始数据值中的最大值与最小值。将所得归一化后的数据d利用MATLAB软件程序转换为224×224的二维灰度图样本作为输入数据x。

所述步骤3)中建立多残差块结构神经网络实现故障识别。整个模型详细结构如图3所示。

(1)首先通过一层7×7卷积核的卷积层、批量归一化层和最大池化层对输入数据进行前处理。其前处理过程如公式(3)所示，下文所述公式为区分每个过程所得结果，采用不同下角标进行标记。

y_i＝max{H(f(x)),s} (3)

其中x表示输入数据，f(·)代表卷积操作，H(·)表示批量归一化操作，y_i表示预处理的输出特征，s表示池化步长，经过各种步长值对比，采用s＝2使得输入与输出通道保持一致。

(2)然后经过倒瓶颈残差块结构提取特征，此倒瓶颈结构残差块中包含分组卷积，使得在能够提取特征的同时，提高模型的运算速度。该残差块结构首先采用7×7的大卷积核后采用两个1×1卷积核的卷积层，从而构成类似倒置瓶颈的结构，有效防止信息丢失。其主要计算过程如公式(4)所示：

y_o＝P(d(y_i)) (4)

式中y_i表示输入特征，d(·)代表深度卷积操作，P(·)表示点卷积运算，y_o代表整个倒瓶颈结构的输出。

(3)其次采用卷积与自注意力的残差块(CA)将上个残差块输入特征进行处理。首先，该残差块能够共享部分操作后经自注意力和卷积两个分支处理特征最后聚合在一起，进一步丰富故障特征，从而得到更多故障特征信息。卷积与自注意力并行分支结构如附图3所示，具体过程如下所示：先由1×1卷积核的卷积层处理输入特征。表达式如下所示：

y_c＝f₁(y_o) (5)

式中yo表示输入特征，f₁(·)代表1×1卷积核的卷积操作，y_c代表1×1卷积核的卷积层输出。

然后由一个分支中卷积过程进行处理，对输入特征进行线性映射，其表达式为：

g_c＝Ky_c (6)

其中K代表卷积核权重，y_c表示1×1卷积核提取的特征。其次，将映射所得特征图进行聚合再一起，其数学表达式如下所示：

g_c'＝∑g_c (7)

在另外一个分支中自注意力操作，首先输入特征y_c投影为查询q、键k和值v，公式如下所示：

q＝W_qy_c,k＝W_ky_c,v＝W_vy_c (8)

其中W_q,W_k和W_v是查询q、键k和值v的权重矩阵。其次，将所得的注意力权重和值进行整合，其数学表达式如下所示：

g_s＝∑A(q,k)v (9)

式中A(·)表示注意力计算权重，g_s代表自注意力操作的输出。

最后将两个分支所得结果进行相加得到输出g_w，其数学表达式如(10)所示。从而得到了大量丰富特征，包含了更多故障信息。

g_w＝g_c′+g_s (10)

(4)在CA残差块中所得特征后传至挤压与激励残差块(SE)中，该结构对基本残差块中的特征通道维度增加注意力机制，包括挤压(Squeeze)和激励(Excitation)两个关键操作,其过程如下：挤压操作(Squeeze)是一个全局平局池化层，将输入特征g_w的c个通道压缩成c个实数即通道数64,其数学表达式为：

S＝Avg(g_w) (11)

式中，Avg(·)表示求平均操作，S表示挤压过程的输出。然后经过激励操作(Excitation)进行通道恢复，第一步中第1个全连接层将c通道以r倍降维，然后利用ReLU激活函数进行非线性化，接着是第二个全连接层以r倍增维，经过在c与r的各种取值对比，最后得出c＝64与r＝16时整体性能与计算效率最平衡；激励操作第二步首先利用Sigmoid激活函数对通道进行权重估值,得到一个向量值。其激励过程数学表达式如下所示，

α＝F_ex(S,W) (12)

式中，S表示挤压过程输出结果，W表示激励过程中的全连接操作，F_ex(·)表示激励函数，α表示激励过程输出的向量值。

由于挤压与激励过程是对基本残差块的特征进行操作，所以激励过程的所得向量值与基本残差块所得特征相乘，完成整个通道注意力过程。其计算如下：

m＝α·T(g_w) (13)

其中m表示挤压与激励残差块(SE)的输出，T(·)表示基本残差块函数，g_w是卷积与自注意力残差块(CA)的输出特征，α表示激励过程输出的向量值。

(5)最后通过分类器MLP完成分类任务，输出各个故障类别的结果，其数学表达式如下所示：

y_l＝M(∑w_lm) (12)

式中，m为输入特征，y_l为输出结果，w_l为中间层神经元的连接权重，M(·)表示激活函数。训练环节结束后根据所得交叉熵损失值进行反向传播，不断调整训练参数。其交叉熵计算损失值过程如下所示：

式中，C代表类别数，共有6种状态，所以C＝6，对应6种状态的标签为0、1、2、3、4、5。β为真实故障多对应的16个随机标签值，如4、2、1、2、3、5、3、6、1、7、2、4、7、2、4、6；γ为预测值，是由结果y_l对应的16个预测故障标签值。此处的16个标签值是由最小批量值16所确定的，是由6种不同状态对应的标签组合形成，模型每次按批量值进行运算。最终根据所得损失值不断进行反向传播，更新参数。当迭代至所设定的最终迭代次数30时，获得最小的损失值，得到最终输出结果。

这六种状态信号分别为每种选取480个作为训练样本，320个测试样本，共计4800个样本。输出层根据采集信号时记录的故障种类设置样本标签作为网络的输出。在参数设置中，最小批量数量为16，学习率设置为0.001。在所述步骤4)中该网络训练30次，训练过程中采用反向传播算法与随机梯度下降。优化器选择Adam，参考文献Adam:AMethod forStochastic Optimization。

本方法所提出模型的分类效果采用混淆矩阵进行表示，如图5所示，混淆矩阵的横坐标表示样本的预测类别值，纵坐标表示样本的实际状态，由此看出预测类别与实际类别一一对应，准确率近似达到100％。

为了验证所提方法的分类效果，对结果进行T-SNE可视化显示，结果如图6所示。从结果中可以看出，每一类都能很好的单独成簇，与其他类没有重叠，能够将各个故障类别分类出来。在如图7所示的准确率与损失曲线图中，在不断迭代过程中，故障识别准确率逐渐趋于1，损失值逐渐趋于0，证明该发明的有效性。

Claims

1.一种基于多残差块结合的故障诊断方法，其特征在于：将不同工作状况下多个传感器的原始信号进行数据融合，然后对融合数据进行归一化处理以抑制信号中异常值的影响，最后将归一化处理后的数据转换为二维灰度图作为模型的输入，以增强不同故障之间特征，充分发挥该模型处理图片数据的性能；提出一种多残差块相互结合的网络模型，该模型通过多个残差块之间组合来丰富故障特征，提取与故障有关故障特征，将所得的丰富特征中突出的故障特征进行局部处理，抑制与故障无关的特征干扰，最后将处理后的结果由多层感知分类器MLP进行识别故障；通过训练过程计算其损失值进行反向传播更新模型参数，当迭代至最终的迭代次数时，获得最终输出结果,从而进行故障诊断。

2.根据权利要求1所述的基于多残差块相结合的故障诊断方法，其特征在于对多个传感器的信号融合方式，步骤如下：

采用多个传感器进行信号采集，通过多个传感器信号融合，避免了使用单个传感器信息的局限性，假定x₁(n),x₂(n),...,x_t(n)是由t个传感器采集的信号，其传感器i和传感器j之间的相关性表示如下：

其中，N代表信号总数，n表示信号长度，m为不同通道离散信号的时间坐标移动值；由于信号是多个传感器是同时采集的，且单个信号点很快被传感器所采集，k标记为0；因此多个传感器融合信号表示为：

3.根据权利要求1所述的多残差块相结合的故障诊断方法，其特征在于多残差的网络模型结构；在Pytorch框架下搭建模型，主要包含倒瓶颈结构残差块、自注意力与卷积结合残差块(CA)、挤压与激励残差块(SE)和多层感知机分类器(MLP)四大部分；将四大部分按照介绍顺序依次组合，具体如下：

在倒瓶颈结构残差块中，其结构顺序依次是一个7×7卷积核的深度卷积层、批量归一化层、一个1×1卷积核的点卷积层、一个激活函数ReLU和一个1×1卷积核的点卷积层依次连接组成；

在自注意力与卷积结合残差块(CA)中，其结构顺序主要是一个1×1卷积核的卷积层、批量归一化层、激活函数ReLU、一个自注意力机制与卷积的双分支结构、批量归一化层、激活函数ReLU、一个1×1卷积核的卷积层、批量归一化层和激活函数ReLU依次连接，其中自注意力机制与卷积双分支结构是由卷积操作与自注意力操作两个并行分支组成；在该模块中，首先共用前面1×1卷积层处理特征，然后分成两个卷积操作和自注意力操作分支，最后再使用一个1×1卷积核的卷积层将两个分支的特征聚合；

挤压与激励残差块(SE)通过一个基本残差块、挤压过程、激励过程所组成，基本残差块是由一层1×1卷积核的卷积层、批量归一化层、一层3×3卷积核的卷积层、批量归一化层、一层1×1卷积核的卷积层、批量归一化层依次连接而成，用来提取输入特征；而后经过挤压过程，其通过全局池化层将输入特征每个通道的二维特征压缩为1个实数即通道数64，该实数具有全局的感受野，通道数保持不变；之后在激励过程中，第一个全连接层将C通道压缩为C/r个通道即压缩为4个通道，降低计算量，其中r为缩放系数；经过在C与r的各种取值对比，最后得通道数C＝64，r＝16时整体性能与计算效率最平衡；然后经过ReLU激活函数，进行第二个全连接层操作，使其恢复到原来C＝64个通道，最后经过Sigmoid函数，最终得到一个向量，并与之前基本残差块结果进行相乘，完成通道注意力机制过程；

MLP分类器主要由输入层、隐藏层和输出层所组成，为了减少参数量，输入层、隐藏层和输出层各自只采用一层全连接层组成，每两个全连接层之间采用ReLU激活函数进行非线性变换，其输出结果与实际标记故障类型进行对比，根据输出各个标签出现的概率值大小进行排序，最终得到最终的分类结果。

4.根据权利要求1所述的基于多残差块相结合的故障诊断方法，其特征在于模型的训练过程：

(1)首先通过一层7×7卷积核的卷积层、批量归一化层和最大池化层对输入数据进行前处理；其前处理过程如公式(3)所示，其中下文所述公式为区分每个过程所得结果，采用不同下角标标记；

y_i＝max{H(f(x)),s} (3)

其中x表示输入特征，f(·)代表卷积操作，H(·)表示批量归一化操作，y_i表示预处理的输出特征，s表示池化步长，经过各种步长值对比，采用s＝2使得输入与输出通道保持一致；

(2)然后经过倒瓶颈残差块结构提取特征，此倒瓶颈结构残差块中包含分组卷积，使得在能够提取特征的同时，提高模型的运算速度；该残差块结构首先采用7×7的大卷积核后采用两个1×1卷积核的卷积层，从而构成类似倒置瓶颈的结构；其主要计算过程如公式(4)所示：

y_o＝P(d(y_i)) (4)

式中y_i表示输入特征，d(·)代表深度卷积操作，P(·)表示点卷积运算，y_o代表整个倒瓶颈结构的输出；

(3)其次采用卷积与自注意力的残差块(CA)将上个残差块输入特征进行处理；具体过程如下所示：先由1×1卷积核的卷积层处理输入特征；表达式如下所示：

y_c＝f₁(y_o) (5)

式中y_o表示输入特征，f₁(·)代表1×1卷积核的卷积操作，y_c代表1×1卷积核的卷积层输出；

g_c＝Ky_c (6)

其中K代表卷积核权重，由网络模型随机产成的值，y_c表示1×1卷积核提取的特征；其次，将映射所得特征图进行聚合再一起，其数学表达式如下所示：

g_c'＝∑g_c (7)

q＝W_qy_c,k＝W_ky_c,v＝W_vy_c (8)

其中W_q,W_k和W_v是查询q、键k和值v的权重矩阵，由系统随机产生；其次，将所得的注意力权重和值进行整合，其数学表达式如下所示：

g_s＝∑A(q,k)v (9)

式中A(·)表示注意力计算权重，g_s代表自注意力操作的输出；

最后将两个分支所得结果进行相加得到输出g_w，其数学表达式如(10)所示；从而得到了大量丰富特征，包含了更多故障信息；

g_w＝g_c’+g_s (10)

(4)在CA残差块中所得特征后传至挤压与激励残差块(SE)中，该结构对基本残差块中的特征通道维度增加注意力机制，包括挤压和激励两个关键操作,其过程如下：挤压操作是一个全局平局池化层，将输入特征g_w的c个通道压缩成c个实数即通道数64,其数学表达式为：

S＝Avg(g_w) (11)

式中，Avg(·)表示求平均操作，S表示挤压过程的输出；然后经过激励操作进行通道恢复，第一步中第1个全连接层将c个通道以r倍降维，然后利用ReLU激活函数进行非线性化，接着是第二个全连接层以r倍增维，经过在c与r的各种取值对比，最后得出c＝64与r＝16时整体性能与计算效率最平衡；激励操作第二步首先利用Sigmoid激活函数对通道进行权重估值,得到一个向量值；其激励过程数学表达式如下所示：

α＝F_ex(S,W) (12)

式中，S表示挤压过程输出结果，W表示激励过程中的全连接操作，F_ex(·)表示激励函数，α表示激励过程输出的向量值；

由于挤压与激励过程是对基本残差块的特征进行操作，所以激励过程的所得向量值与基本残差块所得特征相乘，完成整个通道注意力过程；其计算如下：

m＝α·T(g_w) (13)

其中m表示挤压与激励残差块(SE)的输出，T(·)表示基本残差块函数，g_w是卷积与自注意力残差块(CA)的输出特征；

y_l＝M(∑w_lm) (14)

式中，m为输入特征，y_l为输出结果，w_l为中间层神经元的连接权重，M(·)表示激活函数；训练环节结束后根据所得交叉熵损失值进行反向传播，不断调整训练参数；其交叉熵计算损失值过程如下所示：

式中，C代表类别数，共有6种状态，所以C＝6，对应6种状态的标签为0、1、2、3、4、5；β为真实故障多对应的16个随机标签值，如4、2、1、2、3、5、3、6、1、7、2、4、7、2、4、6；γ为预测值，是由结果y_l对应的16个预测故障标签值；此处的16个标签值是由最小批量值16所确定的，是由6种不同状态对应的标签组合形成，模型每次按批量值进行运算；最终根据所得损失值不断进行反向传播，更新参数；

直至当迭代至所设定的最终迭代次数30时，获得最小的损失值，得到最终输出结果。