CN114239384A

CN114239384A - 一种基于非线性度量原型网络的滚动轴承故障诊断方法

Info

Publication number: CN114239384A
Application number: CN202111429337.0A
Authority: CN
Inventors: 苏祖强; 吴然然; 韩冷; 张小龙; 姜维龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-25

Abstract

发明涉及仿真分析技术领域，具体涉及一种基于非线性度量原型网络的滚动轴承故障诊断方法，包括构建级联注意原型非线性度量网络，并对构建的网络进行分类训练，将带诊断的数据进行数据处理后输入训练好的级联注意原型非线性度量网络，输出诊断结果；本发明通过原型计算模块提取特征图，同时对支撑集特征计算原型，在级联注意力模块里将查询样本特征与各类原型一一拼接，然后通过级联注意力机制提取拼接样本的长距离相关性，最后将级联注意力模块提取的特征输入非线性度量模块，从而实现小样本条件下准确有效的轴承故障诊断。

Description

一种基于非线性度量原型网络的滚动轴承故障诊断方法

技术领域

本发明涉及仿真分析技术领域，具体涉及一种基于非线性度量原型网络的滚动轴承故障诊断方法。

背景技术

滚动轴承作为大型旋转机械设备中最关键的部件之一，在恶劣环境下长时间运行极易损坏，甚至导致整个机组不能正常工作，造成巨大的经济损失或人员伤亡。因此，对滚动轴承进行准确、智能的故障诊断在工业界和学术界具有非常重要的意义。

基于深度学习的滚动轴承故障诊断方法在过去几年中得到了迅猛发展,其利用神经网络强大的特征维数约简、模式识别能力对振动信号进行故障诊断识别。与传统的诊断算法相比，深度学习拥有更强大的高维度、非线性抽象数据特征提取能力和更准确的模式识别能力，无需人为的特征提取。诸如自动编码器(AE)、深度置信网络(DBN)、卷积神经网络(CNN)和深度残差网络(DRN)等深度学习方法已经广泛应用在标记样本充足的滚动轴承故障诊断领域中，并发挥出了较好的性能。然而，这些方法的成功大部分都归功于大量的标签数据，而在实际的工业应用场景里，由于滚动轴承在生命周期中多数情况下是正常运行，很难直接获取足够的标记故障样本。标记故障样本稀缺将导致传统深度学习方法故障诊断模型过拟合、鲁棒性差以及故障诊断准确率低等问题。因此，在标签故障样本较少的条件下，研究用于滚动轴承的故障诊断模型具有重要的工程意义。

发明内容

针对现有技术中由于标记样本稀缺，基于深度学习的故障诊断方法难以取得理想的识别效果，本发明提出一种基于非线性度量原型网络的滚动轴承故障诊断方法，包括构建级联注意原型非线性度量网络，并对构建的网络进行分类训练，将带诊断的数据进行数据处理后输入训练好的级联注意原型非线性度量网络，输出诊断结果。

进一步的，级联注意原型非线性度量网络包括样本集划分模块、原型计算模块、级联注意力机制学习模块以及非线性度量策略分类训练模块，其中：

利用样本集划分模块将样本集划分为支撑集和查询集；

将划分的数据集输入原型计算模块获取数据集中样本对应的特征图，并通过支撑集的特征图计算类别原型；

将查询集样本的特征图与各类别的原型进行一一拼接，并采用级联注意力机制学习模块提取拼接样本的长距离相关性；

将级联注意力机制学习模块提取拼接样本的长距离相关性输入非线性度量策略分类训练模块进行分类训练。

进一步的，将划分的数据集输入原型计算模块获取数据集中样本对应的特征图，即利用特征提取器

将样本集L中的样本x_i嵌入到特征空间，表示为：

对于第c类故障，利用支撑集S生成原型P_C，包括：

其中，y_i表示支撑集S中第i个样本的标签。

进一步的，级联注意力机制学习模块包括通道注意力子模块和空间注意力子模块，提取拼接样本的长距离相关性包括：

级联注意力机制学习模块对输入的拼接样本进行卷积，提取到特征F；

将特征F分别输入通道注意力子模块和空间注意力子模块，通道注意力子模块自适应调整各个通道之间的特征值，建立通道依赖关系，得到通道注意力特征F_c'；

空间注意力子模块关注目标样本在输入特征映射的位置信息，得到空间注意力特征F_s'；

将通道注意力特征F_c'和空间注意力特征F_s'进行信息融合，再将融合的特征信息与输入特征F累加，得到拼接样本的长距离相关性。

进一步的，通道注意力子模块包括全局平均池化层、第一卷积块以及第二卷积块，每个卷积块由卷积层、BN层和激活函数构成，将特征F输入级联的全局平均池化层、第一卷积块以及第二卷积块提取得到通道信息结构体S，将通道信息结构体S统一特征F的矩阵积与特征F相加作为通道注意力子模块的输出。

进一步的，通道注意力特征F_c'表示为：

其中，

为特征F的全局平均池化得到的通道注意力特征图，W₁和W₂分别为第一卷积块和第二卷积块中卷积层的权重；σ(.)为sigmoid激活函数；γ(.)为relu激活函数，

和

分别为矩阵乘运算和加运算。

进一步的，空间注意力子模块包括第三卷积块和全局平均池化层，第三卷积块由卷积层、BN层构成，将特征F输入级联的第三卷积块和全局平均池化层提取得到空间信息结构体S'，将空间信息结构体S'与输入的特征F相乘后得到的值再与特征F相加得到空间注意力特征F_s'。

进一步的，空间注意力特征F_s'表示为：

其中，

为特征F在其通道维度的平均池化，W₃表示卷积块中卷积层的权重，σ(.)为sigmoid激活函数，

和

分别为矩阵乘运算和加运算。

进一步的，级联注意力机制学习模块对输入的拼接样本进行卷积过程中采用额卷积块包括卷积层、池化层、BN层和激活函数。

本发明通过原型计算模块提取特征图，同时对支撑集特征计算原型，在级联注意力模块里将查询样本特征与各类原型一一拼接，然后通过级联注意力机制提取拼接样本的长距离相关性，最后将级联注意力模块提取的特征输入非线性度量模块，从而实现小样本条件下准确有效的轴承故障诊断。

附图说明

图1为本发明公开的一种基于非线性度量原型网络的滚动轴承故障诊断方法的具体实施方式的流程图；

图2为本发明提出的非线性度量原型网络结构示意图；

图3为原型网络结构示意图；

图4为原型的线性度量结构示意图；

图5为本发明非线性度量结构示意图；

图6为本发明提出的级联注意力机制结构示意图；

图7为本发明MFS实验装置在状态a下采集的滚动轴承振动信号示意图；

图8为本发明MFS实验装置在状态b下采集的滚动轴承振动信号示意图；

图9为本发明MFS实验装置在状态c下采集的滚动轴承振动信号示意图；

图10为本发明MFS实验装置在状态d下采集的滚动轴承振动信号示意图；

图11为本发明MFS实验装置在状态e下采集的滚动轴承振动信号示意图；

图12为不同故障诊断识别方法的诊断精度对比示意图；

图13为WDCNN故障诊断识别方法下的混淆矩阵输出示意图；

图14为SiaNet故障诊断识别方法下的混淆矩阵输出示意图；

图15为RelaNet故障诊断识别方法下的混淆矩阵输出示意图；

图16为ProNet故障诊断识别方法下的混淆矩阵输出示意图；

图17为NM-ProNet故障诊断识别方法下的混淆矩阵输出示意图；

图18为本发明(CANM-ProNet)故障诊断识别方法下的混淆矩阵输出示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于非线性度量原型网络的滚动轴承故障诊断方法，包括构建级联注意原型非线性度量网络，并对构建的网络进行分类训练，将带诊断的数据进行数据处理后输入训练好的级联注意原型非线性度量网络，输出诊断结果。

如图1，本发明包括非线性度量原型网络训练与故障诊断识别两个部分，具体包括：

1、非线性度量原型网络训练：基于有限标记样集，将其划分为训练集和测试集，其中训练集进一步划分为支撑集和查询集，通过原型网络将样本映射到嵌入空间并基于支撑集计算各类的原型。嵌入空间中的查询样本与类原型逐个拼接，将其送入级联注意力模块以提取非局部信息。最后通过非线性度量模块更好地度量样本和原型之间的相似性，以提高故障性能。基于上述步骤对非线性度量原型网络初始化所有参数，通过梯度下降算法馈送训练样本来训练网络优化模型参数；

2、小样本下的滚动轴承故障诊断：待诊断识别的滚动轴承振动数据处理；将待诊断识别数据输入流程1中所述已训练的非线性度量原型网络；所述已训练非线性度量原型网络输出故障诊断结果。

基于非线性度量原型网络的轴承故障诊断模型进行以下操作：

S11、样本集划分；进行样本集划分前，将包含C类故障类别的原始振动信号样本归一化为标准化的一维样本，并将有限的有标记故障样本划分为支持集

与查询集

作为非线性度量原型网络的训练样本集L用于S12-S14；

S12、根据划分好的数据集，在原型计算模块提取特征图，同时通过支撑集特征计算类别原型；即：

非线性度量原型网络中的嵌入原型模块利用特征提取器

将训练样本集L中的样本x_i嵌入到特征空间：

对于第c类故障，利用支持集S生成原型P_c：

由于原型网络是通过线性方式度量样本与类原型的相似性，线性度量旨在通过预定义一个固定度量(例如欧式距离)，来直接计算特征间的距离，这要求特征提取器能够提取明显的判别特征作为原型表示，而机械振动信号很难在少标记样本条件下提取出可辨识性高的故障特征。其次，固定的线性度量无法学习到复杂信号之间的非线性关系，其诊断性能将会大大降低。针对原型网络线性度量的不足，使用一种可学习的非线性分类器替代原型网络固定的线性度量方式，将类原型与查询样本特征进行拼接，通过非线性的神经网络学习非线性度量，对每一批的拼接样本进行相似度打分以此来完成样本类别识别。

S13、基于计算好的原型，将查询样本特征与各类的原型进行一一拼接，并采用级联注意力模块来提取拼接样本的长距离相关性。

将一个查询样本与C类原型特征进行拼接，并将拼接样本l(x_i)输入级联注意力模块中的卷积块，对拼接特征进行初步特征提取得到特征图

其中，H×W×C分别代表特征图的高、宽和通道数。在级联注意力模块中，控制特征图

分别流进通道注意力和空间注意力模块。通过通道注意力模块，可以自适应调整各通道之间的特征值，建立通道依赖关系，得到通道注意力特征F_c'；在空间注意力模块中，主要关注目标样本在输入特征映射的位置信息，忽略不重要的目标特征，得到空间注意力特征F_s'；最终将通道注意力特征F_c'和空间注意力特征F_s'进行信息融合，再将融合的特征信息与输入特征F累加，实现对拼接样本的重要特征的提取。

(1)通道注意力模块。在通道注意力模块里，首先采用全局平均池化操作，对特征F在空间维度上进行压缩，聚合特征映射的空间信息来生成通道注意力特征图

再通过两个卷积块提取每个通道之间的非线性关系，对两个卷积块的通道维度先进行降维处理后再进行升维处理，然后使用激活函数来获得通道注意权重S。通道注意力内部网络结构如图5所示，其中CPBA表示对应的卷积层、池化层、BN层和激活函数，CBA表示卷积层、BN层和激活函数。接着，输入特征F与通道信息结构体S矩阵相乘，生成的结果再与F信息融合获得通道注意力加权特征

最终通道注意力模块输出结果如下所示：

式中，

为F的全局平均池化得到的通道注意力特征图，W₁和W₂分别表示在CBA中两次卷积的权重，σ(.)和γ(.)分别为sigmoid和relu激活函数，

和

分别为矩阵乘运算和加运算。

(2)空间注意力模块。在空间注意力模块中，首先采用一层卷积层对特征F提取信息，对卷积层的输出特征进行通道融合得到空间注意力特征图

然后使用激活函数来获得空间注意权重S'。空间注意力网络结构如图5所示，其中CB表示对应的卷积层和BN层。接着，将输入特征F与空间信息结构体S'矩阵相乘，生成的结果再与F信息融合获得空间注意力加权特征

最终空间注意力模块输出结果如下所示：

式中，

为F在其通道维度的平均池化，W₃表示在CB中卷积核为7×7卷积的权重，σ(.)为sigmoid激活函数，

和

分别为矩阵乘运算和加运算。

S14、将注意力模块提取的特征输入非线性度量模块，以实现有效的few-shotlearning(FSL)轴承故障诊断，将拼接样本输送到非线性度量模块

中，通过一系列网络层的不断映射，该模块最终通过softmax输出C个值为0到1之间的标量V_j,r，

V_j,r表示查询样本

与某类原型p_C之间的相似性，即查询样本

属于该类的概率值。其中，基于原型网络的线性度量和非线性度量方式区分如下图4所示：

为了提高该分类器的准确率，通过最小化查询样本和支撑集对应的类原型的分类损失来训练网络模型，本文使用均方误差作为损失函数，通过上述输出的相似性概率值V_j,r和查询样本的标签

与类原型所属标签

计算均方误差L_MSE：

最后，通过最小化上式来训练网络模型：

在类原型与查询样本的特征图拼接之后，直接输进非线性度量网络受感受野的大小影响，不能捕获特征维度增倍的拼接样本的长距离相关性。因此，使用一种级联注意力机制来提取拼接样本的长距离相关性，以此更好地通过非线性度量模块去提取样本与原型之间的非线性关系。

故障诊断识别的识别过程包括：

S21、待诊断识别数据处理；

S22、待诊断识别数据输入非线性度量原型网络，网络输出故障诊断结果；

非线性度量原型网络是一种小样本有监督学习模型，非线性度量原型网络主要包括原型计算模块、级联注意力模块和非线性度量模块。

为了验证本发明公开的故障诊断识别方法的有效性，利用机器故障模拟器(MFS)的振动信号进行对比试验；本实验模拟了滚动轴承的5种健康状态，采集了44Hz转频下模拟器的皮带端轴承Y轴振动信号，采样频率为10240Hz。特别地，每组健康状态数据重复采集6次。在获得五种不同状态的振动信号后，需要对振动信号进行数据预处理，首先，将长度为102400的振动数据分为25个样本，每个样本包含4096个数据点，因此，每类样本个数是25×6＝150。五种不同状态下的原始振动波形如下图6所示，其健康状态如下表1所示。针对实际应用中少标记样本的故障诊断，本文将所有样本随机划分为训练集和测试集，20％的样本作为训练样本，剩下的80％作为测试样本。其中，训练集的标记样本数量设置为4中情况，每类分别包含5个、10个、15个、20个样本，称之为6-way 5/10/15/20-shot，每个shot从左到右依次为WDCNN、SiaNet、RelaNet、ProNet、NM-ProNet以及本发明(CANM-ProNet)5种方法的。

表1滚动轴承的健康状态

表2数据集说明

基于以上样本集，本发明所提出的方法(CANM-ProNet)与其他五种方法进行了对比，包括WDCNN、文献32nd International Conference Machine Learning,2015.“SiameseNeural Networks for One-Shot Image Recognition.”中所述Siamese Network(SiaNet)、文献CVPR.,2018.“Learning to Compare:Relation Network for Few-ShotLearning.”中所述Relation Network(RelaNet)、文献NIPS.,2017.“PrototypicalNetworks for Few-shot Learning.”中所述Prototypical Network(ProNet)、无添加级联注意力力机制的本方法(NM-ProNet)。为了保证实验的公平性，六种方法将统一使用相同的特征提取器和超参数，对每一批数据都获取相同的训练和测试样本，总共十批数据重复实验进行综合评价。

本方法特征提取器结构参数如下表3所示：

表3网络层的参数

为减小实验数据的随机性对实验结果的影响，分别进行十次次随机实验，实验结果如图12和下表4所示：

表4对比实验结果

从表中可以明显发现，传统深度学习方法WDCNN的故障诊断性能表现很不理想，这主要是因为在少量训练数据的情况下，无法充分反映数据在高维空间中的真实分布。但随着训练样本的增加，WDCNN的精度大大提高，当每类训练样本20个时，比每类5个样本的故障诊断识别率高了24％左右。表中SiaNet，ProNet和RelaNet的三个FSL方法，与传统的深度学习方法相比，诊断性能有了明显提升，这是由于SiaNet、RelaNet和ProNet都是通过相似度计算和类别扩展从小样本中获取知识。在这三个FSL方法中，ProNet的总体识别效果最好，在5-shot、10-shot、15-shot和20-shot情况下相比较WDCNN平均增加率分别约为7％、6％、6％和4％。这说明ProNet通过原型拟合数据分布中心，能够更好地提高滚动轴承分类精度。此外，还可以发现，随着训练样本的增加，FSL方法的提升精度都在逐渐下降。在基于原型网络的改进方法中，NM-ProNet利用非线性度量策略，来判别拼接样本是否属于同类。当每类训练样本数量从5增加到20个时，NM-ProNet的识别精度从81％提升到了91％，比原始的ProNet分别提升了约16％、11％、5％、5％，这表明在原型网络中，相比较线性度量方式，使用非线性度量策略能大大提升了故障诊断性能，主要是因为固定的相似性度量函数无法通过学习更多参数来更新网络模型，容易造成过拟合，而非线性度量使用一个可学习的相似性度量函数，使得分类效果提升。然而，由于拼接样本的特征维度增加，在非线性度量模块中受感受野的限制不能获取其长距离相关性，这给复杂振动信号的故障特征提取带来了影响。通过比较表中NM-ProNet和CANM-ProNet，在每类5-shot、10-shot、15-shot和20-shot分别提升了约3％、4％、4％和2％，这表明对拼接样本添加注意力模块，获取其长距离相关性，能够更好地适用于非线性度量，从而提高故障诊断的性能。因此，与其他方法相比，提出的CANM-ProNet实现了最好的测试分类效果。

为了更详细的比较实验方法在各类之间的分类情况，图8列出了WDCNN、SiaNet、RelaNet、ProNet、NM-ProNet和CANM-ProNet方法在5-shot下诊断结果的混淆矩阵。其中，每类测试样本为120个，共5种故障类别。从整体分类情况可以看出，以下几种方法的错误分类主要集中在IF和BF上，结合图7～11中这两类的原始信号波形，可以发现IF和BF的信号波形有些一致，所以才导致难以完全区分的可能。从图13可以看出，WDCNN的识别效果很差，在对BF分类时，有一半以上的样本分类错误，错误的标签大多集中在IF上，这表明在仅有5-shot的标记样本用于网络训练的情况下WDCNN不能被很好地学习其样本特征来实现分类效果，小样本下不适用于WDCNN的故障诊断。从图14～16可以看出，相比较WDCNN，三者的分类效果都有相应提升，但总体相差不大，表明了这三种方法在FSL下的故障诊断分类有效性。本文提出的方法如图18所示，与对比方法比较，均提升了明显的分类效果，增强了IF和BF的区分性，同时比较图17的方法，也有一定的提升，这是因为在提出的方法中，通过非线性度量能够更好地判别拼接样本的相似性，同时使用级联注意力计算拼接样本的长距离相关性，进一步获取更具判别的特征，使得本方法对每一类的识别准确率均较高，因此，与其他方法相比，所提出的CANM-ProNet实现了最佳的小样本故障诊断精度。

本发明针对故障标记数据稀缺的应用场景，提出了一种改进的滚动轴承故障诊断模型的FSL方法，称为级联注意和非线性度量改进原型网络(CANM-ProNet)。首先，原型计算模块提取支持集和查询集的特征映射，并利用支持集的特征映射计算原型。然后，将查询特征映射与每个原型连接起来，并引入级联注意模块提取连接特征的非局部信息。最后，提出了一种非线性度量模块，用于更好地度量样本和原型之间的相似性，以提高故障诊断性能。大量的实验表明，在故障样本较少的情况下，该方法比其他方法更有效。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，包括构建级联注意原型非线性度量网络，并对构建的网络进行分类训练，将带诊断的数据进行数据处理后输入训练好的级联注意原型非线性度量网络，输出诊断结果。

2.根据权利要求1所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，级联注意原型非线性度量网络包括样本集划分模块、原型计算模块、级联注意力机制学习模块以及非线性度量策略分类训练模块，其中：

利用样本集划分模块将样本集划分为支撑集和查询集；

3.根据权利要求2所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，将划分的数据集输入原型计算模块获取数据集中样本对应的特征图，即利用特征提取器

将样本集L中的样本x_i嵌入到特征空间，表示为：

对于第c类故障，利用支撑集S生成原型P_C，包括：

其中，y_i表示支撑集S中第i个样本的标签。

4.根据权利要求1所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，级联注意力机制学习模块包括通道注意力子模块和空间注意力子模块，提取拼接样本的长距离相关性包括：

5.根据权利要求4所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，通道注意力子模块包括全局平均池化层、第一卷积块以及第二卷积块，每个卷积块由卷积层、BN层和激活函数构成，将特征F输入级联的全局平均池化层、第一卷积块以及第二卷积块提取得到通道信息结构体S，将通道信息结构体S统一特征F的矩阵积与特征F相加作为通道注意力子模块的输出。

6.根据权利要求5所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，通道注意力特征F_c'表示为：

其中，

和

分别为矩阵乘运算和加运算。

7.根据权利要求4所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，空间注意力子模块包括第三卷积块和全局平均池化层，第三卷积块由卷积层、BN层构成，将特征F输入级联的第三卷积块和全局平均池化层提取得到空间信息结构体S'，将空间信息结构体S'与输入的特征F相乘后得到的值再与特征F相加得到空间注意力特征F_s'。

8.根据权利要求7所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，空间注意力特征F_s'表示为：

其中，

和

分别为矩阵乘运算和加运算。

9.根据权利要求7所述的一种基于非线性度量原型网络的滚动轴承故障诊断方法，其特征在于，级联注意力机制学习模块对输入的拼接样本进行卷积过程中采用额卷积块包括卷积层、池化层、BN层和激活函数。