CN116304836A

CN116304836A - 一种基于领域知识引导的少样本半监督轴承故障诊断方法

Info

Publication number: CN116304836A
Application number: CN202310341999.5A
Authority: CN
Inventors: 谢素超; 李雅鑫; 王嘉诚; 谭鸿创; 刘润达; 杨凌志
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-06-23

Abstract

本发明提供一种基于领域知识引导的少样本半监督轴承故障诊断方法，可实现少样本半监督轴承故障定位。基于轴承故障特征机理，融合小波包分解以及信息熵算法，提出基于领域知识引导的特征工程。将先验特征向量与基于卷积神经网络提取的一般特征向量拼接，与基于Meat‑ACON改进的注意力机制相连实现特征融合。两种特征相互补充，一方面降低卷积网络计算时间，另一方面提高识别精度。采用半监督‑自训练训练策略对基于XGBoost的分类器进行训练，为样本缺失、样本量少的工程应用提供了基础。在实例中，对所提出的方法进行了验证，在多种工况以及多种故障规格的轴承故障定位实验中，其在准确率以及识别效率上表现出优势。

Description

一种基于领域知识引导的少样本半监督轴承故障诊断方法

技术领域

本发明属于机械零部件故障定位技术领域，尤其涉及一种基于领域知识引导的少样本半监督轴承故障诊断方法，应用于少样本多工况的轴承故障定位。

背景技术

在现代工业浪潮中，以旋转机械为代表的动力机械和逐渐向精密化，复杂化，自动化方向发展。滚动轴承作为机械传动系统中的核心部件，在各个领域发挥至关重要的作用，如风力发电，交通运输、航空航天等。在实际工业生产以及日常机械运行过程中，轴承的运行情况影响着生产效率、生产安全、运行平稳等。故障预测以及健康管理技术，通过将机械的监控数据与健康状态相联系，关注机械的健康状况。诊断模型通过对信号进行分析，自动对故障状态进行判断。基于深度学习的故障诊断技术依赖于大量的数据进行学习，然而实际工程实际中，故障数据稀缺，用于模型训练的数据量有限，因此模型的实际应用能力受到制约。在少样本故障诊断任务中，一般从网络能力或者数据增强两个角度入手。而工业实际中收集得到信号受工况以及工作环境的影响，数据的分布不一致，这不仅需要大量的训练时间，而且对于数据的处理要求也较高。而将深度学习算法直接应用于工程实际，受场景复杂性以及数据稀缺的限制，很难得到预期效果。在前人针对某一领域研究的基础上建立深度学习网络，也就是将领域知识整合到数据驱动模型中的过程，以创建具有物理常识的模型为基础提供指导性学习以及更丰富的信息，可大大提高模型的效果。

因此理想的适用于工程实际任务中轴承故障定位的模型应该有以下特点：该方法应该对算力要求不高，有较高的计算效率；该方法应当适用于多种工况的工作环境；该方法应当能在只有少量带正确标签样本的情况下实现诊断。

发明内容

针对上述技术问题，本发明提供一种基于领域知识引导的少样本半监督轴承故障诊断方法，该方法基于领域知识嵌入思想，改进了基于深度学习网络提取虚拟特征的特征工程，采用物理特征与一般特征融合的特征提取策略，通过两种特征相互补充实现特征突出。同时引入Meta-ACON新技术，对XGBoost分类器进行改进，在特征向量输入分类层之前，使用注意力机制对特征进行加权，提高分类精度。最后引入半监督-自训练训练策略，建立了少样本情况下半监督轴承故障诊断模型。

本发明通过以下技术方案实现：

一种基于领域知识引导的少样本半监督轴承故障诊断方法，包括以下步骤：

步骤1，数据获取和分割。利用振动传感器从试验台或实际工作零部件上获取振动信号。采用滑动窗口从原始信号中进行分割取样。

步骤2，基于领域知识嵌入的物理特征提取，采用小波包算法对信号进行分解，基于信息熵和能量值提取分解后各层信号能量信息构成领域知识特征。

步骤3，基于深度学习网络的虚拟特征提取。利用深度卷积神经网络提取虚拟特征，建立一个含有三层卷积层、池化层、归一化层的特征提取模块。

步骤4，特征融合及故障定位分类。分别对上述特征进行归一化处理后，将特征集拼接输入改进注意力机制层，对特征进行变换以及加权。使用XGBoost取代Softmax分类层，实现故障定位。

步骤5，半监督训练策略。在进行分类训练时，本发明采用半监督-自训练训练策略。随机丢弃30％～50％的标签，通过迭代对分类器进行更新，实现少样本-半监督故障定位。

具体的，步骤1，具体的方法为：

设置滑动窗口进行取样；假设样本窗口长度为a，从i^th处提取样本信号，i为样本点位置，重叠区间长度为b，信号总成为N，则可获知样本数量n为：

步骤2中，领域知识特征提取具体的方法为：

对样本x_i进行正交分解：

其中P_jx(t)为频段信号，D_jx(t)为低频段信号，

和ψ_jk(t)为近似小波包函数，系数/>

和/>

的值为：

h为递推系数通过公式(1)、(2)，小波包分解的过程是将信号分解成多个小波包，设原始信号分解为j层则得到2^j个小波包，每个小波包代表了原始信号在不同频带上的组成成分，而且每个小波包具有相同的宽度和相邻的分解层的数目；

对信号进行小波包分解，则分解后第j层的分解序列为S_jk(k＝0～2^j-1)，计算每个尺度上的能量值；即将小波包分解过程等价为能量的分解过程，将能量序列标记为E₁,E₂,...,E_k；

E_i＝|D_k(i)|²(3)

其中D_k(i)为每个小波包重构系数的信号分量；

随机变量X来表示不确定系统的状态特征，取值X为x_j的概率p_j为：

p_j＝P{X＝x_j} (4)

X的某一个结果得到的信息I_j表示为：

则X的信息熵H(X)表示为:

在信号的某一尺度上，信号的总功率E表示为每个节点的能量和；令：

ε_jk(i)＝E_i/E (7)

∑_kε_jk＝1 (8)

ε_jk为每层信号所占信息比率，则小波包能量熵H_jk为：

其中N是信号长度，H_jk是信号的第k个小波包能量熵。

步骤3中，基于深度学习网络的虚拟特征提取，一般特征由CNN网络改良而来，包含卷积层，池化层，激活函数以及全连接层；在时间序列信号处理中采用1D的CNN网络，输出如式(10)所示：

其中k_w和b_w为权值，x为输入；

池化层用于特征筛选，如式(11)，减少参数，加快收敛过程；

通过Batchnorm层实现数据正则化，输出为y_i，提高泛化能力改善内部变量不一致问题；

GELu作为非线性的激活函数，是一种符合预期的随机正则方式；

设置了三层卷积以及池化层与全连接层相连，全连接层输出为：

g_q＝GELu(p₃w_q+b_q) (13)

其中g_q是全连通层的输出，w_q和b_q是该层的权值矩阵和偏置。

步骤4的特征融合及故障定位分类，具体方法为：

将领域知识特征和一般特征进行拼接后加入注意力块；

在进行特征拼接后输入卷积层和Batchnorm层生成中间矩阵；如式(14)所示:

h＝δ(F_g[cat(x_CNN,x_Prior)]) (14)

δ为Meta-ACON激活函数，F_g代表注意力机制函数；

然后将h为注意力机制输出，将h划分为两个部分x＇和其他部分；为最大程度利用先验特征部分的原始信号信息，以及特征中临界脉冲谱部分，将x＇通过函数映射使其与X_Prior通道数保持一致，并连接卷积层和Sigmoid，输出y_c：

g＝σ[F(f_x′)] (15)

y_c后接入Flatten和L2-Norm，与XGBoost分类连接得到分类结果。

步骤5，基于半监督-自训练的训练策略，步骤如下：

Step1：样本集中均含有标签，随机选取数据丢弃标签，得到新的数据集；按比例将数据集依照训练集以及测试集进行划分，在含有标记的数据集中进行分类器训练；

Step2：利用训练过得分类器对未标记数据进行标签预测，设定阈值，选取概率较高的数据作为“伪标签”；

Step3：组合含有“伪标签”以及“真标签”的数据集进行分类器的二次训练；

Step4：使用二次训练后的分类器对含有“真标签”的数据集进行分类预测，设定评价标准对此时的分类器进行评估；

若还含有未标记标签，则重复Step2～4，直至无未标记数据集为止。

训练迭代过程中，以F₁作为分类器效果的指标：

其中precision为精确率，recall为召回率。

本发明的优点是：

(1)本发明受知识嵌入和知识发现启发，基于小波包分解以及信息熵建立了领域知识引导改进的特征工程，减少了网络用于虚拟特征选择的训练时间，域单纯的物理特征工程和基于深度学习网络的特征工程相比，可指导网络得到受环境影响较小的特征向量，提高复杂工况下分类精度；

(2)本发明对分类器的输入部分进行改进，使用基于Meta-ACON的改进注意机制模块代替XGBoost的特征评分以及特征选择部分，与XGBoost分类器相结合进行故障分类。

(3)本发明使用半监督-自训练训练策略，对分类器进行迭代改进，使其适用于工业实际。利用多个数据集进行模型验证，验证了该模型在复杂工况以及多个工作台上的普适性和鲁棒性。

附图说明

图1是本发明的基于领域知识引导的半监督轴承故障诊断方法流程图；

图2是本发明的基于改进注意力机制的特征融合算法示意图；

图3是本发明的半监督训练策略示意图；

图4是本发明的实例中实验装置图；

图5为本发明实验结果对比图；

图6是本发明的流程图。

具体实施方式

为更加清晰呈现本发明的技术方案及其优越性，结合附图以及实验实例，对本发明尽心详细阐述。此外，采用的实验实例证明仅用于本发明技术方案阐述，但本发明不局限于所使用的实例。

本发明如图1所示，为了保证样本在时间维度上的连续性，以及最大程度上利用有限数据，在所采集的一段时间内的数据中，采用滑动窗口进行取样。得到样本集

x_i是含有n个数据点的某一样本，N为样本总数。为模拟工程实际中标签样本稀缺现象，训练时将样本按比例划分为有标签部分X_L和无标签部分X_U。

在特征工程部分，首先根据旋转部件发生故障能量分布特点，将能量特征与小波包分解以及信息熵算法相结合，提出小波包树-能量熵特征算法作为先验知识嵌入部分，标记为X_Prior。然后采用无监督CNN神经网络提取虚拟特征，深度学习网络提取的一般特征往往不包含先验特征所具备的信息，标记为X_CNN。先验知识部分特征与一般特征结合互为补充，得到融合特征集F_i＝{f₁,f₂,f₃,...f₁₅,f₁₆}。由注意力机制和XGBoost分类器构成的故障判别器与特征层相连接，提出一种智能诊断算法。

如图6所示的流程图，方法过程及原理具体阐述如下：

步骤1，数据分割。为最大程度上利用样本，防止CNN网络提取不相关的故障特征，设置滑动窗口进行取样。假设样本窗口长度为a，从i^th处提取样本信号(i样本点位置)，重叠区间长度为b，信号总成为N，则可获知样本数量n为：

步骤2，领域知识特征提取。

小波包理论在小波理论基础上进行改进，能够在信号中同时使用高通滤波器和低通滤波器，同时处理近似信号和高频段细节信号，有效地保证信号完整性。对样本x_i进行正交分解：

其中P_jx(t)为频段信号，D_jx(t)为低频段信号，

和ψ_jk(t)为近似小波包函数，系数/>

和/>

的值为：

h为递推系数通过公式(1)(2)，小波包分解的过程是将信号分解成多个小波包，设原始信号分解为j层则可以得到2^j个小波包，每个小波包代表了原始信号在不同频带上的组成成分，而且每个小波包具有相同的宽度和相邻的分解层的数目，随着分解层数目的增加，对原始信号的描述也越来越细致。

对信号进行小波包分解，则分解后第j层的分解序列为S_jk(k＝0～2^j-1)，计算每个尺度上的能量值。也就是说将小波包分解过程等价为能量的分解过程，将能量序列标记为E₁,E₂,...,E_k。

E_i＝|D_k(i)|² (3)

其中D_k(i)为每个小波包重构系数的信号分量。

随机变量X来表示不确定系统的状态特征，取值X为x_j的概率p_j为

p_j＝P{X＝x_j} (4)

X的某一个结果得到的信息I_j可以表示为：

则X的信息熵H(X)可以表示为:

在信号的某一尺度上，信号的总功率E表示为每个节点的能量和。假设：

ε_jk(i)＝E_i/E (7)

∑_kε_jk＝1 (8)

ε_jk为每层信号所占信息比率，则小波包能量熵H_jk为：

其中N是信号长度，H_jk是信号的第k个小波包能量熵。

步骤3，基于CNN的虚拟特征提取。

一般特征提取部分主要由CNN网络改良而来，包含卷积层，池化层，激活函数以及全连接层。在时间序列信号处理中采用1D的CNN网络，输出如式(10)所示：

其中k_w和b_w为权值，x为输入

池化层用于特征筛选，如式(10)，减少参数，加快收敛过程。

通过Batchnorm层实现数据正则化，输出为y_i，提高泛化能力改善内部变量不一致问题。

GELu(Gaussian error linear units)作为非线性的激活函数，是一种符合预期的随机正则方式。

g_q＝GELu(p₃w_q+b_q) (13)

其中g_q是全连通层的输出，w_q和b_q是该层的权值矩阵和偏置

步骤4，基于改进注意力机制的特征融合及故障定位分类。

如图2所示，将先验特征和一般特征进行拼接后加入注意力块。为得到先验特征与一般特征之间的空间以及位置关系，建立两组向量之间的联系，在进行特征拼接后输入卷积层和Batchnorm层生成中间矩阵。如式(14)所示:

h＝δ(F_g[cat(x_CNN,x_Prior)]) (14)

δ为Meta-ACON激活函数，F_g代表注意力机制函数。

g＝σ[F(f_x′)] (15)

y_c后接入Flatten和L2-Norm，与XGBoost分类连接得到分类结果。

步骤5，基于半监督-自训练的训练策略。

工程实际应用当中，不仅存在特定样本稀缺问题，还存在标签缺失的现象。人工地将样本集进行标签标注，不仅需要消耗大量的人力物力财力，且需要承担错误标签的风险。因此在训练时，采用半监督训练方法进行训练，如图3所示,本发明中采用的训练方案步骤如下：

Step1：样本集中均含有标签，随机选取数据丢弃标签，得到新的数据集。按比例将数据集依照训练集以及测试集进行划分，在含有标记的数据集中进行分类器训练；

Step4：使用二次训练后的分类器对含有“真标签”的数据集进行分类预测，设定评价标准对此时的分类器进行评估。

上述训练方案是一种增量算法，利用少量有标注样本训练原始分类器，然后原始分类器不断迭代训练，直到满足条件为止，得到含有做好分类效果的分类器。训练迭代过程中，以F₁作为分类器效果的指标：

其中precision为精确率，recall为召回率，本发明通过高速列车安全实验室机械故障模拟综合实验平台轴承故障数据进行实例验证。实验台结构如图4所示，试验轴承型号为MBER-12K，滚子数量为8个，球直径为0.3125mm。使用电火花点蚀技术获得了故障直径为1mm，2mm的故障轴承，分别在滚子，内圈，外圈构造损伤，以形成单点故障和复合故障。电机转速为2000r/min，采样频率为32kHz。按照故障位置将样本进行分类，分别为内圈故障、外圈故障、滚子故障、混合故障以及健康状态。针对小样本以及样本标签丢失状况，分别安排实验进行验证，并于其他方法进行对比。

在少样本故障诊断分类任务中按照样本比例或者样本数量进行样本定义，在本发明的验证中定义每类样本不多于50个为少样本实验，对比了每类样本为30，50，100时的模型有效性，同时与采用其他分类器进行对比。

GP为包含一般特征和先验特征，G只包含有一般特征，P代表包含先验特征。采用五折交叉验证，结果如表1所示，先验特征在CSU数据集中由一般特征起主导作用。两种特征互为补充有效提高了诊断精度。与SVM，KNN，RandomForest作为分类器相比，XGBoost的分类精度更高当每类样本在30个时也能有85以上的分类精度。可以证明基于先验知识嵌入的特征工程对分类精度的贡献以及XGBoost相较于其他分类器的优越性。将本发明中所提出方法与现有的深度学习网络的分类能力，尤其是在样本数量极少情况下的分类效果，每类故障样本设为5,30,50,100，分别与MLP,ResNet,Alexnet网络进行了对比实验。如图5所示，当每类训练样本仅有5个时，本发明的方法也能达到70％以上准确率。基于CNN的模型，在主干网络部分选取同样结构的CNN网络进行特征提取，虽然在某些任务中效果稍微优于本方法，准确率比本发明中的方法高2％左右，但其需要在训练50个以上epoches后效果才能稳定，学习效率不高，耗时较长。且在各个数据集中，ResNet，Alexnet以及MLP表现并不稳定，泛化能力逊色于本发明所提出方法。

表1少样本故障定位实验结果

在上述故障诊断方案中增加了半监督轴承故障训练策略，以验证本发明中所提出的方法在模型学习样本数量少且部分样本标签丢失情况下的适用性。在训练集标签中随机丢失一部分，丢失标签比例为30％～50％。分别验证了每类样本数量为30,50,100时的准确率以及F1分数。

采用五折交叉实验验证，结果如表2所示，在半监督训练任务中，上节所提出的方法准确率下降了5％～10％，但在小样本分类任务中仍可保持较高准确率。在实验数据集中设置两种故障规格的实验任务，最大测试集比例为92.5％，其准确率最少可达到88.44％，F1指标可达到89.14％。与其他三种机器学习分类方法相比，可以证明其在准确率以及稳定性上都有较优表现。且在半监督训练迭代过程中，收敛速度快，迭代次数为8～15次。在少样本半监督轴承故障诊断任务中，本发明提供的方法在训练精度以及速度上表现出较好的鲁棒性和泛化性能。

表2半监督少样本故障定位实验结果

以上实验证明了该方法在复杂工况下，在训练速度、精度以及训练稳定性上的优势，同时降低了算力要求，适用于早期轴承故障位置定位以及轴承健康监测等任务。