CN116502135A

CN116502135A - 一种轴承故障诊断方法及系统

Info

Publication number: CN116502135A
Application number: CN202310281341.XA
Authority: CN
Inventors: 姚德臣; 杨建伟; 常猛; 王金海; 胡忠硕
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-28

Abstract

本申请提供一种轴承故障诊断方法及系统，其提供了融合全局和局部信息的CNN和混合Transformer相融合的MCHformer架构，能够结合CNN和transformer的优点：首先通过膨胀卷积提取获得不同尺度发局部特征，然后通过混合transformer结构的特征提取器建立远程依赖性，在保持局部特征的同时，提取上下文中强鲁棒的全局特征，并将不同尺度的空间特征进行融合，最后将融合后的特征输入到新设计的结构中进行自适应学习，以得到在大噪声环境下具有高准确率的故障类别诊断结果。本申请所提供的变压器能够有效减少用于信息，更好地聚焦相邻点。本申请的神经网络模型可直接对噪声振动数据进行处理，无需使用先进的预处理技术，即可有效诊断故障类型。

Description

一种轴承故障诊断方法及系统

技术领域

本申请涉及机械故障诊断技术领域，具体而言涉及一种轴承故障诊断方法及系统。

背景技术

随着社会的快速发展，轴承已经广泛应用于轨道交通、航天飞行器、汽车、工业机器人等旋转机械设备中，这些设备运转的环境又相对复杂如高温高压、变速、高湿等，轴承容易出现故障，如果发生故障将造成巨大的经济损失，因此开展对轴承的监测与诊断，减少故障的发生率，保证机械安全、可靠运转就变得非常重要。

基于数据驱动的轴承故障诊断方法不需建立复杂的模型，通过利用大量数据建立并且不断的优化模型，可获得良好诊断结果，因而非常适用于复杂机械的智能故障诊断。目前基于数据驱动的故诊断方法通常可分为基于传统机器学习的智能诊断方法、基于深度学习的智能诊断方法以及基于深度迁移学习的故障诊断方法。

随着深度学习的快速发展，因其强大的特征提取能力而被广泛应用，研究人员通过卷积神经网络及其改进模型进行故障诊断。Shao等人提出了一种名为集成深度自编码器(EDAES)的新方法用于滚动轴承的智能故障诊断。Li等人提出了一种基于自适应多尺度形态滤波(AMMF)和修正层次排列熵(MHPE)的新型故障诊断方法来识别行星变速箱的不同健康状况。Chen等人探索了随机森林(RF)集成学习算法，用于光伏阵列早期故障(包括线路故障、退化、开路和部分遮挡)的检测和诊断，结合多种学习算法，获得了优越的诊断性能。Zhao等人提出了一种基于深度信念网络(DBN)的模拟电路故障诊断方法。Chen等人试图从故障机理、传感器技术与信号采集、信号处理和智能诊断四个主要方面，对机械故障诊断基础研究领域的近期研发趋势进行总结。Zhu等人提出了一种故障诊断方法包括三个部分:(1)有效分析典型故障条件下光伏阵列输出特性和电特征向量分布；(2)在模糊均值算法中引入单位法和高斯核函数，提高无监督筛选对各种故障样本的适用性和模糊聚类能力；(3)以聚类数据为输入，建立概率神经网络故障诊断模型。Li等人提出了一种新的基于深度学习的滚动轴承故障诊断方法。传统的复合故障诊断方法集中于轴承或齿轮的故障诊断，在故障诊断过程中总是将复合故障视为一个独立的故障模式，没有完全考虑单故障与复合故障之间的关系。为了解决这一问题，Huang等人提出了一种名为深度解耦卷积神经网络的智能复合故障诊断方法。Xu等人给出了模糊神经网络技术在设备故障诊断中应用的优越性，阐述了模糊理论和神经网络技术的基础。Wenkui等人提出了一种新的基于卷积神经网络(CNN)的故障诊断方法。

然而，上述研究没有考虑到工业生产中的强噪声干扰。由于实际环境中噪声较大，传感器采集到的振动信号是非平稳的，导致传统神经网络提取的特征质量不高。并且，由于噪声的强干扰，轴承振动信号的周期特性会发生显著变化，这使得CNN很难提取高质量特征，并且无法解决远程依赖性问题。

发明内容

本申请针对现有技术的不足，提供一种轴承故障诊断方法及系统，本申请针对大多数模型不能充分捕捉原始振动信号中多尺度特征以及大噪声环境下机械的特征提取和故障诊断问题，提出了一种基于全局和局部联合的多尺度CNN和混合transformer相融合的神经网络，能够有效提高卷积神经网络的故障识别能力，在强干扰噪声下，依然保持较高的准确率。本申请具体采用如下技术方案。

首先，为实现上述目的，提出一种轴承故障诊断方法，其步骤包括：第一步，采集轴承的振动数据，对振动数据进行膨胀卷积，获得不同尺度的特征；第二步，通过混合Transformer架构的特征提取器分别对不同尺度的特征进行全局信息的提取，建立远程依赖关系，并将不同尺度的空间特征进行融合；第三步，将融合后的特征输入到自适应学习训练完毕的神经网络模型中，诊断识别出轴承的故障类别。

可选的，如上任一所述的轴承故障诊断方法，其中，所述混合Transformer架构的特征提取器包括两种不同的变压器，其中一种Transformer采用多尺度卷积注意机制(MSCA)和反向残差前馈网络(IRFFN)，另一种Transformer采用SE注意力机制和反向残差前馈网络(IRFFN)，两种变压器采用串联的方式进行连接，与传统的仅有注意力机制作为主要组成的Transformer相比较，所述的轴承故障诊断方法引入了传统卷积神经网络和Transformer向融合的方式，通过多尺度卷积及多种注意力机制的引入保证了特征的丰富性，提高诊断方法对特征的判别性。

可选的，如上任一所述的轴承故障诊断方法，其中，所述一种Transformer中采用多尺度卷积注意机制(MSCA)替代原始Transformer中的多头注意力机制，通过引入多种尺度的，其采用深度可分离卷积模块替换传统的卷积块用于能够更好的提取局部信息，并且加入残差结构能够更好的用于提取全局上下文信息，最终通过核大小为1x1的卷积在通道维度进行相关性建模。

可选的，如上任一所述的轴承故障诊断方法，其中，多尺度卷积注意机制(MSCA)各DW卷积模块的卷积核分别为：5x5，1x7、1x11、1x21，7x1、11x1、21x1和1x1；各DW卷积模块分别利用不同大小的卷积核提取多尺度特征，并将其作为注意力权重对MSCA的输入进行重新加权。

可选的，如上任一所述的轴承故障诊断方法，其中，两种不同的Transformer分别将其原始Transformer中的多头注意力机制，替换为多尺度卷积注意机制(MSCA)和SE注意力机制(Attention)，能够更好的提取特征信息，通过将输入矩阵X分别和矩阵W^K、W^V、W^Q相乘得到K、Q、V，然后对Q和K进行点乘获得softmax层，根据Q和K计算两者的相似性或者相关性得到权重系数，接着将softmax层和V进行点乘，利用softmax层的权重系数对V进行加权求和，得到自注意力模块的输出。

可选的，如上任一所述的轴承故障诊断方法，其中，所述反向残差前馈网络(IRFFN)用于替代transformer原本的MLP层，其由一个扩展层、一个深度卷积和一个投影层组成，用于改变残差连接的位置；所述反向残差前馈网络(IRFFN)，采用DW卷积层替代传统卷积，引入GELU激活函数替代ELU激活函数，并加入残差结构消除梯度消失和梯度爆炸造成的影响，。

可选的，如上任一所述的轴承故障诊断方法，其中，反向残差前馈网络(IRFFN)具有如下表达式：IRFFN(X)＝Conv(F(Conv(X)))，F(X)＝DWConv(X)+X，其中，深度可分离卷积DWConv(X)的卷积核为3x3，用于提取局部信息。

可选的，如上任一所述的轴承故障诊断方法，其中，所述SE注意力机制用于替代原始Transformer的多头注意力机制，先对输入的特征进行全局池化，将特征变成W×H×C，然后通过全连接层和激活函数，对W×H×C的特征进行调整，变成每一个特征的权重，然后与输入的特征进行相乘。

一种基于如上任一所述的所述方法的轴承故障诊断系统，其中，包括：传感模块，用于采集轴承的振动数据；特征提取模块，用于对振动数据进行膨胀卷积，获得不同尺度的特征，然后通过混合Transformer架构的特征提取器分别对不同尺度的特征进行全局信息的提取，建立远程依赖关系，并将不同尺度的空间特征进行融合；故障识别模块，用于接收融合后的特征，通过自适应学习训练完毕的神经网络模型诊断识别出轴承的故障类别。

可选的，如上任一所述的轴承故障诊断系统，其中，所述特征提取模块采用融合全局和局部信息的CNN和混合Transformer相融合的故障诊断架构，通过MCHformer-RDP对由振动数据经过处理所得到的灰度图进行特征提取，获得故障特征，然后由特征信息对故障进行分类。

有益效果

本申请所提供的轴承故障诊断方法及系统，其提供了融合全局和局部信息的CNN和混合Transformer相融合的MCHformer架构，能够结合CNN和transformer的优点：首先通过膨胀卷积提取获得不同尺度发局部特征，然后通过混合transformer结构的特征提取器建立远程依赖性，在保持局部特征的同时，提取上下文中强鲁棒的全局特征，并将不同尺度的空间特征进行融合，最后将融合后的特征输入到新设计的结构中进行自适应学习，以得到在大噪声环境下具有高准确率的故障类别诊断结果。本申请所提供的变压器能够有效减少用于信息，更好地聚焦相邻点。本申请的神经网络模型可直接对噪声振动数据进行处理，无需使用先进的预处理技术，即可有效诊断故障类型。

具体而言，本申请结合CNN和Transformer优点设计了MCHformer框架。CNN利用平移不变性的性质获取局部特征，Transformer通过建立远程依赖性提取全局有效特征，并将两种不同尺度的空间特征进行融合，可以收集到更具有代表性的特征更适合强噪声工况。

为了提取高诊断质量，识别多尺度特征，本申请设计了两种不同的Transformer框架的网络，和两种注意力机制，能够有效减少对冗余信息的提取，因而能够对诊断有效特进行增强。

本申请创造性地将MCHformer和R-drop进行结合，开发了用于噪声干扰故障诊断的MCHformer-RDP，令模型的所有参数尽可能受到相等的正则化约束，能有效的防止过拟合。

本申请所提出的神经网络模型可以直接对噪声振动数据进行处理，无需使用先进的预处理技术。通过实验数据进行分析，本申请技术方案有效可行，且诊断识别效果明显优于现有技术。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

附图用来提供对本申请的进一步理解，并且构成说明书的一部分，并与本申请的实施例一起，用于解释本申请，并不构成对本申请的限制。在附图中：

图1是现有卷积神经CNN网络的原理示意图；

图2是现有变压器Transformer中多头自注意机制模块(MHSA)的原理示意图；

图3是现有R-Drop技术的原理模型示意图；

图4是本申请所提供的4CHformer模型的原理框图；

图5是本申请所采用的多尺度卷积注意机制(MSCA)的原理框图；

图6是本申请所采用的注意力机制(Attention)的原理框图；

图7是本申请所采用的反向残差前馈网络(IRFFN)的原理框图；

图8是本申请所采用的SE注意力机制(SE)的原理框图；

图9是本申请所使用的凯斯西储大学(CWRU)试验台的设备图；

图10是本申请所采用的MCHformer架构在不同噪声环境下去噪能力的对比图型；

图11利用t-sne算法对情况A下的SNR为5下情况下的MCHformer模型的诊断结果进行可视化所获得的t-sne图，其中(a)Proposed method；(b)VGG；(c)MobileNetV3；(d)ShuffleV2；

图12为MCHformer模型诊断结果的混淆矩阵，其中(a)Proposed method；(b)VGG；(c)MobileNetV3；(d)ShuffleV2；

图13为本申请所采用的XJTU实验台的示意图；

图14为不同模型去噪能力的比较图形；

图15为推荐模型的t-sne图，其中(a)Proposed method；(b)VGG；(c)MobileNetV3；(d)ShuffleV2

图16为推荐模型的混淆矩阵，其中(a)Proposed method；(b)VGG；(c)MobileNetV3；(d)ShuffleV2。

具体实施方式

为使本申请实施例的目的和技术方案更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于所描述的本申请的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本申请中所述的“连接”的含义可以是部件之间的直接连接也可以是部件间通过其它部件的间接连接。

传统的卷积神经网络(CNN)如图1所示，其以高效的特征提取能力而闻名。它通常由卷积层、池化层和激活层、全连接层组成，如图1所示。通过平移不变性实现同卷积核的参数共享，提取不同尺度的局部特征，利用反向传播进行参数更新，实现模型的不断优化。

考虑到影响CNN学习远程依赖性能力的一个关键因素是网络中前向和后向信号所必须经过的路径长度，而Transformer结构可以很好的解决远程依赖性问题，近年来已逐渐有人尝试将Transformer架构应用于故障诊断领域。

传统的Transformer架构可参照图2所示，该变压器是基于变压器块叠加的多层网络，其中变压器块主要由多头自注意机制模块(MHSA)、位置前馈模块(FNN)、层归一化模块(LayerNorm)、残差连接等组成，如图2所示，其中Transformer的核心部分是Multi-HeadAttention，它由多个Self-Attention组成，在计算的时候需要用到矩阵Q、K、V。而Q、K、V正是通过Self-Attention的输入进行线性变换得到的。公式如(1)所示。

现有研究中，Ding等人出了一种新颖的时频变压器(TFT)模型，该模型的灵感来自香草变压器在序列处理中的巨大成功。Wu等人提出一种基于深度学习的先进方法，采用变压器架构，利用时间序列数据对同时发生的故障进行诊断。该方法可以直接应用于瞬态数据，同时保持精度，而无需稳态检测器，以便在故障的早期阶段进行诊断。Alexakos等人提出一种组合式短时间傅里叶变换与图像分类变压器模型，用于电机滚动体轴承故障诊断。变压器的成功得益于大规模数据的使用，但现有的变压器技术在故障诊断任务中，常受限于故障样本量的限制，由于轴承故障样本量相当小，其难以支持现有Transformer架构实现有效训练。并且现有的Transformer架构不具备CNN那样的平移不变性和局部性，因此在数据不足时不能很好的泛化到新的任务上。

基于上述困境，本申请结合CNN和transformer在特征提取方面有各自独特的优势，提出了一种MCHformer-RDP:全局和局部联合的CNN和混合transformer相融合的轴承故障诊断框架。其能够在强噪声条件下，从复杂的振动信号中提取有用特征，忽略无用特征。本申请通过收集局部区域特征和全局特征，以增加网络的鲁棒性。MCHformer的设计理念是获取包括长期依赖和局部依赖在内的多种空间特征，并将它们进行融合。为了保证特征尺度的丰富性和全局性设计了两种不同transformer，其中包括MSCA和Attention以及IRFFN和SE分别用于两种不同的transformer，两种transformer结构通过串联的方式进行连接。该系统首先通过一个多分支结构获得3种不同尺度的特征，然后通过混合transformer对这三种不同尺度的特征进行全局信息的提取并建立远程依赖关系。此外，本申请还修改了变压器的一些性质，以减少冗余信息，更好地聚焦相邻点。

具体参照图4，本申请所采用的4CHformer中，IRFFN:采用倒残差前馈网络组成的IRFFN模块替代transformer原本的MLP层。倒残差前馈网络(IRFFN)与倒残差块相似，由一个扩展层、一个深度卷积和一个投影层组成。具体来说，通过改变残差连接的位置以获得更好的性能，表达式如下所示:

IRFFN(X)＝Conv(F(Conv(X))) (4)

F(X)＝DWConv(X)+X (5)

其中激活层和批处理归一化线性层省略。深度可分离卷积用于提取局部信息，计算成本可以忽略不计。残差网络可以提高梯度跨层传播的能力。在实验中证明了这种快捷方式有助于网络取得更好的效果。

MSCA:如图5所示，卷积注意力是一种比Transformer中的自注意力机制更有效和有来编码上下文信息。MSCA模块采用传统卷积模块设计但引入了多尺度卷积注意力，进一步提取全局上下文信息。DW卷积用于聚合局部信息，多分支DW卷积用于捕获多尺度上下文信息，1x1卷积用于在通道维度进行相关性建模。

SA自注意力机制:自注意力机制如图6所示，输入矩阵X分别和矩阵W^K、W^V、W^Q相乘得到K、Q、V，然后对Q和K进行点乘，在进行softmax层接着和V进行点乘。根据Q和K计算两者的相似性或者相关性得到权重系数，然后权重系数对V进行加权求和，得到自注意力模块的输出。用数学表达如(6)所示：

Attention(Q，K，V)＝V·sof tmax(K^TQ) (6)

由此，为了提高强噪声情况下模型对特征的挖掘能力，提高故障诊断准确率，本申请通过融合全局和局部信息的CNN和混合Transformer相融合的MCHformer架构，结合CNN和transformer的优点，提供了一种轴承故障诊断方法及使用该方法的系统。

该系统通过传感模块采集轴承的振动数据；通过特征提取模块对振动数据进行膨胀卷积，获得不同尺度的特征，然后通过混合Transformer架构的特征提取器分别对不同尺度的特征进行全局信息的提取，建立远程依赖关系，并将不同尺度的空间特征进行融合；再通过故障识别模块接收融合后的特征，通过自适应学习训练完毕的神经网络模型诊断识别出轴承的故障类别。

具体而言，本申请系统中所采用的混合变压器结构，其中包括MSCA和Attention以及IRFFN和SE。其首先，通过一个多分支结构获得3种不同尺度的特征，然后通过混合transformer对这三种不同尺度的特征进行全局信息的提取并建立远程依赖关系。此外，本申请还修改了变压器的一些性质，以减少冗余信息，更好地聚焦相邻点。本申请所提出的神经网络模型可以直接对噪声振动数据进行处理，无需使用先进的预处理技术。通过如下对实验数据进行的分析，能够有效验证本申请方法的有效性。

下面通过两个轴承故障数据集验证本申请所提供的MCHformer模型的鲁棒性，讨论该模型在不同噪声环境下的诊断精度。

轴承故障数据集中，在原始信号中加入了泊松噪声、椒盐噪声和不同信噪比高斯白噪声，得到不同信噪比的复合信号，信噪比由(7)式所示，其中P_s是信号的功率，P_n是噪声的功率，lg是以10为底的对数。

为了验证所提方法的有效性，下面分别使用CWRU和XJTU两组数据集进行故障诊断。实验硬件为R5-2600X CPU、16G RAM和RTX2080ti GPU。数据集由MATLAB软件制作，神经网络结构由pytorch开发，编程语言为Python3.6。

第一验证试验

本实验采用CWRU数据集进行故障诊断，数据集分别以1730rpm、1750rpm、1772rpm、1797rpm的转速分为四类，图9为CWRU试验台的设备图。在实验过程中，使用加速度传感器以12KHz的采样频率采集振动数据。在本实验中，CWRU数据集被分为9个故障类别：内圈、外圈和滚动元件故障，故障直径分别为0.007mm、0.014mm和0.021mm。每个类别有1000个样本。每个类别训练集和测试集按照9:1进行划分，数据集分类如表1所示。

表1CWRU数据集组成

为验证MCHformer在不同噪声环境下的优越性，本申请在信噪比分别为-5、0、5的复合信号数据集上对模型的去噪能力进行了验证，获得了表2和图10的数据以比较了它们的去噪能力：

表2不同模型在CWRU数据集上去噪能力的对比

表2(a)SNR＝-5

表2(b)SNR＝0

表2(c)SNR＝5

从表2和图10可以看出，MCHformer对于不同的复合噪声信号下都具有较强的特征挖掘能力。在信噪比为0db的噪声环境中，对比模型的诊断准确率较低，而MCHformer四个数据集的平均准确率比VGG的高出28.92％，比Shuffle_v2模型高出26.67，比MobileNetV3模型高出22.56％。在三种不同的信噪比情况下A、B、C、D四种数据集上对比模型的准确率均低于推荐模型的20％以上。图11利用t-sne算法对情况A下的SNR为5下情况下的MCHformer模型的诊断结果进行可视化，结果表明MCHformer能够提取有效特征，实现强噪声环境下的高精度故障诊断。为了更好地评估MCHformer对不同故障类型的分类精度，将诊断结果以混淆矩阵的形式可视化。图12给出了MCHformer模型诊断结果的混淆矩阵，深蓝背景块中的数字代表正确预测的样本，浅蓝方块中的数字表示预测错误的样本数量。。基于不同信噪比的消融实验验证了多尺度CNN和混合变压器结构的重要性和有效性，这归因于在不同尺度上提取邻域信息和自适应学习，使得MCHformer能够在强噪声环境下挖掘信号中的有效特征。

第二验证试验

本实验中利用XJTU-SY轴承故障数据集验证MCHformer模型的泛化能力。

图13所示，为XJTU轴承试验台。轴承试验台由交流感应电机、电机转速控制器、支撑轴、两个支撑轴承(重载滚子轴承)、液压加载系统等组成。该数据集包含了9个类别的滚动轴承的运行故障数据。将数据集如表3所示，按照转速和故障类型进行分类，训练集和测试集按照9:1进行自动划分。

表3XJTU数据集组成

本实验中尝试验证MCHformer的能否在强噪声环境下挖掘信号中的有效特征的能力是否具有良好的泛化性进行验证。在信噪比为-2～12db的复合信号数据集上对网络进行测试。表4和图14比较了它们在XJ数据集测试的强噪声环境下的特征挖掘能力，从表中可以看出，MCHformer在不同的噪声环境下都具有较高的特征提取能力，当信噪比为12时，MCHformer的诊断准确率最高，达到90％以上。当信噪比为其他情况时，MCHformer的准确率不高于90％，对于对比模型而言，没有准确率高于90％的情况出现。MCHformer模型在不同噪声环境下的平均准确率为87.04％，比Vgg高出12.61％，比最低的Shuffle_v2高出16.02％，比经典的MobileNetV3模型高出13.88％。为了更好地评估MCHformer模型在XJ数据集下强噪声的特征挖掘能力，将诊断结果以t-sne图和混淆矩阵的形式可视化。图15和图16显示了在信噪比为6的情况下，从不同模型中绘制的t-sne图和混淆矩阵。表4给出了轴承状态的数字ID号。如图15所示，可以观察到各类故障的类别间分布有明显的距离，类内分布相对密集，类别辨识度高，验证了模型特征提取能力。如图16所示，MCHformer可以在强噪声环境挖掘有效的特征，从而对模型的故障诊断获得较高的准确率。在轴承状态为35Hz/12kN时cage出现故障，Shuffle_v2的召回率最低为93.33％，这是因为cage故障的特征信号相对较弱，容易被低信噪比的噪声信号覆盖，MCHformer模型的召回率为100％的最多。

表4不同模型在XJ数据集上去噪能力的对比

以上仅为本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些均属于本申请的保护范围。

Claims

1.一种轴承故障诊断方法，其特征在于，步骤包括：

第一步，采集轴承的振动数据，对振动数据进行膨胀卷积，获得不同尺度的特征；

第二步，通过混合Transformer架构的特征提取器分别对不同尺度的特征进行全局信息的提取，建立远程依赖关系，并将不同尺度的空间特征进行融合；

第三步，将融合后的特征输入到自适应学习训练完毕的神经网络模型中，诊断识别出轴承的故障类别。

2.如权利要求1所述的轴承故障诊断方法，其特征在于，所述混合Transformer架构的特征提取器包括两种不同的变压器，其中一种Transformer采用多尺度卷积注意机制(MSCA)和反向残差前馈网络(IRFFN)，另一种Transformer采用SE注意力机制和反向残差前馈网络(IRFFN)，两种变压器采用串联的方式进行连接。

3.如权利要求2所述的轴承故障诊断方法，其特征在于，所述一种Transformer中采用多尺度卷积注意机制(MSCA)替代原始Transformer中的多头注意力机制，其采用深度可分离卷积模块替换传统的卷积块用于提取局部信息，并且加入残差结构提取全局上下文信息，最终通过核大小为1x1的卷积在通道维度进行相关性建模。

4.如权利要求3所述的轴承故障诊断方法，其特征在于，多尺度卷积注意机制(MSCA)各DW卷积模块的卷积核分别为：5x5，1x7、1x11、1x21，7x1、11x1、21x1和1x1；

各DW卷积模块分别利用不同大小的卷积核提取多尺度特征，并将其作为注意力权重对MSCA的输入进行重新加权。

5.如权利要求2所述的轴承故障诊断方法，其特征在于，两种不同的Transformer分别将其原始Transformer中的多头注意力机制，替换为多尺度卷积注意机制(MSCA)和SE注意力机制(Attention)，通过将输入矩阵X分别和矩阵W^K、W^V、W^Q相乘得到K、Q、V，然后对Q和K进行点乘获得softmax层，根据Q和K计算两者的相似性或者相关性得到权重系数，接着将softmax层和V进行点乘，利用softmax层的权重系数对V进行加权求和，得到自注意力模块的输出。

6.如权利要求2所述的轴承故障诊断方法，其特征在于，所述反向残差前馈网络(IRFFN)用于替代transformer原本的MLP层，其由一个扩展层、一个深度卷积和一个投影层组成，用于改变残差连接的位置；所述反向残差前馈网络(IRFFN)，采用DW卷积层替代传统卷积，引入GELU激活函数替代ELU激活函数，并加入残差结构消除梯度消失和梯度爆炸造成的影响，。

7.如权利要求6所述的轴承故障诊断方法，其特征在于，反向残差前馈网络(IRFFN)具有如下表达式：

IRFFN(X)＝Conv(F(Conv(X)))，

F(X)＝DWConv(X)+X，

其中，深度可分离卷积DWConv(X)的卷积核为3x3，用于提取局部信息。

8.如权利要求2所述的轴承故障诊断方法，其特征在于，所述SE注意力机制用于替代原始Transformer的多头注意力机制，先对输入的特征进行全局池化，将特征变成W×H×C，然后通过全连接层和激活函数，对W×H×C的特征进行调整，变成每一个特征的权重，然后与输入的特征进行相乘。

9.一种基于权利要求1-8所述方法的轴承故障诊断系统，其特征在于，包括：

传感模块，用于采集轴承的振动数据；

特征提取模块，用于对振动数据进行膨胀卷积，获得不同尺度的特征，然后通过混合Transformer架构的特征提取器分别对不同尺度的特征进行全局信息的提取，建立远程依赖关系，并将不同尺度的空间特征进行融合；

故障识别模块，用于接收融合后的特征，通过自适应学习训练完毕的神经网络模型诊断识别出轴承的故障类别。

10.如权利要求9所述的轴承故障诊断系统，其特征在于，所述特征提取模块采用融合全局和局部信息的CNN和混合Transformer相融合的故障诊断架构，通过MCHformer-RDP对由振动数据经过处理所得到的灰度图进行特征提取，获得故障特征，然后由特征信息对故障进行分类。