CN112629854B

CN112629854B - 一种基于神经网络注意力机制的轴承故障分类方法

Info

Publication number: CN112629854B
Application number: CN202011333834.6A
Authority: CN
Inventors: 杨志勃; 张俊鹏; 陈雪峰; 赵志斌; 田绍华; 王诗彬; 张兴武; 李明; 刘一龙; 翟智
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-08-05
Anticipated expiration: 2040-11-25
Also published as: CN112629854A

Abstract

本公开揭示了一种基于神经网络注意力机制的轴承故障分类方法，包括：利用加速度传感器采集轴承的振动加速度时域信号S_T，对振动加速度时域信号S_T进行包络谱变换，获得频域信号S_F，将频域信号S_F作为含有注意力机制的神经网络的输入样本；将输入样本S_F等分为N个不同片段后输入神经网络，对每个片段进行处理并提取特征值，对特征值进行打分运算和归一化处理，获得与输入样本S_F不同片段相对应的注意力权重；建立输入样本S_F不同片段与注意力权重之间的联系；利用注意力权重对每个片段的特征值进行加权并求和，获得注意力机制输出值y_att；对所述注意力机制的输出值y_att通过全连接层后进行归一化处理，获得和为1的概率分布，其中，概率最大的所对应的类别即为轴承的故障类型。

Description

一种基于神经网络注意力机制的轴承故障分类方法

技术领域

本公开属于轴承故障检测领域，特别是一种基于神经网络注意力机制的轴承故障分类方法。

背景技术

如今，在工业大数据的背景下，人工智能和机器学习的快速进步使得故障诊断逐步走向智能化，利用数据驱动的故障诊断智能算法越来越受到重视，成为故障诊断领域新的研究热点。轴承故障诊断是机械状态监测的热门研究方向，以深度学习等为代表的智能诊断方法是近年来轴承故障诊断的一个发展趋势。目前，常用的深度学习方法有卷积神经网络、深度置信网络、循环神经网络以及对抗神经网络等等，这类“端到端”的方法可以自动地挖掘输入信息的深层特征，在输入端直接输入原始信息，在输出端便可得到输出结果。它们取代了传统算法繁琐的特征提取等预处理过程，在工业“大数据”时代异军突起。

虽然许多学者进行了积极的探索，但现阶段只是将已有的网络模型加以调整和改进后，直接用于机械信号的分析，难以给出模型决策的依据，让用户觉得决策结果可信，这显得缺乏依据和解释性。可解释性，即理解和解释神经网络模型，是深度学习未来发展的方向之一，是人类对于人工智能从“知其然”到“知其所以然”的必经之路。深度神经网络究其本质是一个高度非线性非凸的最优化问题，纯数学理论分析解释非常困难，目前尚未建立完备的理论和方法体系，因而大部分通过可视化的方法来向用户提供某些视觉上的直观解释。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

发明内容

针对现有技术中的不足，本公开的目的在于提供一种基于神经网络注意力机制的轴承故障分类方法，通过注意力机制，重点突出输入样本不同片段所含信息对于结果的影响程度，直观展示神经网络对于不同片段的注意力权重，从而实现对轴承故障的监测，为结果提供一个视觉上的直观解释，实现诊断结果的可视化解释。

为实现上述目的，本公开提供以下技术方案：

一种基于神经网络注意力机制的轴承故障分类方法，包括如下步骤：

S100：利用加速度传感器采集轴承的振动加速度时域信号S_T，对所述振动加速度时域信号S_T进行包络谱变换，获得振动加速度频域信号S_F，并将振动加速度频域信号S_F作为含有注意力机制的神经网络的输入样本；

S200：将输入样本等分为N个不同片段，记为S_F1，S_F2，S_F3，…，S_FN，并输入神经网络，对每个片段进行处理并提取特征值，对所述特征值进行打分运算和归一化处理，获得与输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN相对应的注意力权重α₁，α₂，α₃，…α_N；

S300：利用所述注意力权重α₁，α₂，α₃，…α_N对每个片段的特征值进行加权并求和，获得所述输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN的信息集y_att；

S400：对所述输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN的信息集y_att通过全连接层后进行归一化处理，获得和为1的概率分布，其中，概率最大的值y所对应的类型即轴承的故障类型。

优选的，所述注意力机制表示为：

s(H，q)＝q^Ttanh(H′)

α＝softmax(s(H，q))

y_att＝tanh(Hα^T)

其中，s(H，q)表示打分函数，q表示查询向量，H＝[h₁，h₂，h₃，…，h_N]，

表示双向门控循环单元层的输出值，其中h_i表示第i个片段的输出值，箭头→表示时间方向为t∈[1，T]，箭头←表示时间方向为t∈[T，1]；T表示转置运算，H′＝[h′₁，h′₂，h′₃，…，h′_N]，

表示对H中每个片段下双向门控循环层的正向输出和反向输出进行元素相加后的输出值，其中

表示元素加法，α表示注意力权重，y_att表示注意力机制的输出值，tanh表示双曲正切函数，softmax表示概率归一化函数。

优选的，所述双曲正切函数tanh表示为：

其中，e表示自然对数，x表示自变量。

优选的，所述概率归一化函数softmax表示为：

其中，x_i表示对于第i类的值，J表示类别总数，j表示类别，∑表示求和操作。

优选的，步骤S200中，所述注意力权重通过下式获得：

α_n＝Att-Model(S_F)，n∈[1，N]

其中，α_n为输入样本S_F不同片段的注意力权重，Att-Model为含有注意力机制的神经网络，

表示输入样本的维度，N表示输入样本S_F的片段数量，N_sub表示每个片段含有的信号点。

优选的，步骤S200中，所述神经网络包括：

输入层，用于将所输入的样本信号等分为若干片段；

卷积层，用于对所述若干片段进行卷积运算；

双向门控循环单元层，用于提取卷积运算后的片段的特征值；

注意力机制层，用于获得与样本信号若干片段对应的注意力权重；

输出层，用于输出轴承故障类型结果。

优选的，所述卷积层的计算过程如下：

式中，K为卷积核的宽度，w_k为卷积核的权重，

表示输入中与卷积核相同宽度的区域，b为偏置项。

优选的，所述双向门控循环单元层由第一和第二门控循环单元层相互叠加构成，所述第一和第二门控循环单元层的计算过程如下：

r_t＝σ(W_rg·[h_t-1，x_t]+b_rg)

u_t＝σ(W_ug·[h_t-1，x_t]+b_ug)

其中，r表示重置门的输出值，u表示更新门的输出值，h表示隐藏状态，x表示输入值，

表示最新的隐藏状态，下标t和t-1分别表示当前信号片段刻和前一个信号片段，W表示权重矩阵，b表示偏置项，下标rg表示重置门，下标ug表示更新门，σ表示非线性激活函数sigmoid，tanh表示非线性激活函数双曲正切，⊙表示元素乘法；

优选的，所述双向门控循环单元层的计算过程如下：

其中，U表示隐藏状态的权重矩阵，W表示输入样本的权重矩阵，b表示偏置项，x表示输入值，箭头→表示时间方向为t∈[1，T]，箭头←表示时间方向为t∈[T，1]，下标t表示信号片段。

优选的，所述输出层的计算过程如下：

y＝softmax(W_fy_att+b_f)，

其中，W_f和b_f分别表示全连接层的权重矩阵和偏置项。

与现有技术相比，本公开带来的有益效果为：本公开能够直观显示该神经网络结构对于输入样本不同片段的注意力权重，对网络诊断结果进行直观解释，能够提升故障诊断的可解释性与可靠性，有利于减少人力物力的消耗，同时也有利于对轴承的维护和检修计划的安排调整，显著提高监测精度。

附图说明

图1是本公开一个实施例提供的一种基于神经网络注意力机制的轴承故障分类方法流程图；

图2(a)和图2(b)是本公开另一个实施例提供的振动加速度信号的时域和包络谱示意图，其中，图2(a)是振动加速度信号的时域图；图2(b)是振动加速度信号的包络谱图；

图3是本公开另一个实施例提供的含注意力机制的神经网络的结构示意图；

图4是本公开另一个实施例提供的注意力权重曲线示意图；

图5(a)至图5(d)是本公开另一个实施例提供的正常轴承的可视化结果示意图，其中，图5(a)是正常轴承的包络谱图和对应位置的注意力权重曲线；图5(b)是轴承外圈故障的包络谱图和对应位置的注意力权重曲线；图5(c)是轴承内圈故障的包络谱图和对应位置的注意力权重曲线；图5(d)是轴承滚动体故障的包络谱图和对应位置的注意力权重曲线；

图6(a)至图6(c)是本公开另一个实施例的本公开与全连接层的注意力机制和点积形式的注意力机制Top-K的准确率的对比示意图，其中，图6(a)是轴承外圈故障的对比示意图；图6(b)是轴承内圈故障的对比示意图；图6(c)是轴承滚动体故障的对比示意图；

图7(a)至图7(c)是本公开另一个实施例提供的本公开与全连接层的注意力机制和点积形式的注意力机制在故障频率处0-1化的注意力权重幅值对比示意图，其中，图7(a)是轴承外圈故障的对比示意图；图7(b)是轴承内圈故障的对比示意图；图7(c)是轴承滚动体故障的对比示意图。

具体实施方式

下面将参照附图1至图7(c)详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本公开的保护范围当视所附权利要求所界定者为准。

为便于对本公开实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本公开实施例的限定。

一个实施例中，如图1所示，一种基于神经网络注意力机制的轴承故障分类方法，包括如下步骤：

S100：利用加速度传感器采集轴承的振动加速度时域信号S_T，对所述振动加速度时域信号S_T进行包络谱变换，获得频域信号S_F，将频域信号S_F作为含有注意力机制的神经网络的输入样本；

上述实施例构成了本公开的完整技术方案，相比于现有技术，本实施例的优势不仅能够识别出所采集信号的故障类型，而且通过注意力机制在输入样本上进行标注，重点突出输入样本不同片段所含信息对于结果的影响程度，直观展示神经网络对于不同片段的注意力权重，为结果提供一个视觉上的直观解释，从而实现诊断结果的可视化解释。

另一个实施例中，步骤S100中，所述注意力机制表示为：

s(H，q)＝q^Ttanh(H′)

α＝softmax(s(H，q))

y_att＝tanh(Hα^T)

另一个实施例中，所述双曲正切函数tanh表示为：

其中，e表示自然对数，x表示自变量。

另一个实施例中，所述概率归一化函数softmax表示为：

另一个实施例中，步骤S200中，所述注意力权重通过下式获得：

α_n＝Att-Model(S_F)，n∈[1，N]

下面，结合具体实施例对本公开的技术方案进行详细说明。

1、利用加速度传感器采集轴承的振动加速度时域信号S_T，如图2(a)所示；对时域信号S_T进行包络谱变换后，获得如图2(b)所示的与振动加速度时域信号S_T对应的频域信号S_F，其中，横坐标表示频率，单位为Hz，纵坐标表示归一化后的信号幅值。

2、将信号S_F等分为N个不同片段，分别记为S_F1，S_F2，S_F3，…，S_FN，并输入如图3所示的神经网络。

该神经网络中，卷积层包括卷积层conv1和卷积层conv2，对于每个片段来说，卷积层的主要功能是在一个输入上以固定步长滑动一个卷积核对输入进行遍历，在输入的局部区域进行卷积运算，得到一组新的特征。卷积层的运算过程如下：

其中，K为卷积核的宽度，w_k为卷积核的权重，

表示输入中与卷积核相同宽度的区域，b为偏置项。

通过卷积层对等分后的不同片段进行卷积后，可以获得每个片段的特征向量。

双向门控循环单元层由两个门控循环单元层相互叠加构成，其计算和更新过程如下：

r_t＝σ(W_rg·[h_t-1，x_t]+b_rg)

u_t＝σ(W_ug·[h_t-1，x_t]+b_ug)

表示最新的隐藏状态，下标t和t-1分别表示当前信号片段刻和前一个信号片段，W表示权重矩阵，b表示偏置项，下标rg表示重置门，下标ug表示更新门，σ表示非线性激活函数sigmoid，tanh表示双曲正切函数，⊙表示元素乘法。

需要说明的是，双向门控循环单元层的输出值由两个门控循环单元层共同决定，假设第一层的时间方向为t∈[1，T]，第二层的时间方向为t∈[T，1]，各层在时刻t时的隐藏状态分别定义为

和

最后的隐藏状态h_t可以定义为：

其中，U和W分别表示隐藏状态和输入样本的权重矩阵，b表示偏置项，x表示输入值，箭头→表示时间方向为t∈[1，T]，箭头←表示时间方向为t∈[T，1]，下标t表示信号片段。

经双向门控循环单元层处理后，可以获得各片段的特征值，即如图3中所示的。

在注意力机制层，通过打分函数s(H，q)(用于计算每个输入向量xn和查询向量q两者之间的相关性)和概率归一化函数softmax(将相关性的得分转化为和为1的概率分布，即在给定查询向量q和输入向量X下，选择第i个输入向量的概率)对通过双向门控循环单元层获得的特征值进行处理，能够获得与输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN相对应的注意力权重α₁，α₂，α₃，…α_N，注意力权重曲线如图4所示，图4中，横坐标表示频率，单位为Hz，纵坐标表示归一化后的幅值；注意力权重α₁，α₂，α₃，…α_N对双向门控循环单元层的输出值

进行加权处理并求和，获得所述输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN的信息集y_att。

在输出层，通过以下计算过程：

y＝softmax(W_fy_att+b_f)，

其中，W_f和b_f分别表示全连接层的权重矩阵和偏置项。

利用概率归一化函数softmax将y_att转换为和为1的概率分布，假设输出值有4个，分别对应4种故障类型，其中，输出值对应的概率越大，则表明与该输出值所对应的输入信号越有可能属于其所属类别，因此，通过归一化函数softmax对注意力机制的输出值y_att进行处理，可以获得轴承的类型结果。

3、以图4为例，假设加速度传感器以12000Hz的采样频率采集1秒，可得信号点数12000个，经过包络谱变换可得含有6000个点的频域数据，频率范围为[0，6000)，频率间隔为1Hz，将该数据作为输入样本，等分为100段后输入含有注意力机制的神经网络，在识别该信号的故障类别的同时，还可以得到这100个片段的注意力权重，具体如表1所示，表1中，假设所采集的是轴承发生外圈故障时的振动加速度信号，且故障特征频率为103Hz。

表1

由表1可知，本公开相比于现有方法，不仅能够识别出所采集的振动加速度信号为外圈故障，而且可以在含有故障特征频率的片段(即表1中片段S_F2)上含有一个最大的注意力权重，由此说明片段S_F2的特征在分类识别中具有最大的影响，这个和我们认为判断信号属于什么类别的故障具有一个相似性。

图5(a)至图5(d)是本公开一个实施例提供的正常轴承的可视化结果，横坐标表示频率，纵坐标表示归一化的幅值，实线表示的轴承的包络谱信号，虚线表示注意力权重曲线。其中，图5(a)是正常轴承的包络谱图和对应位置的注意力权重曲线；图5(b)是轴承外圈故障的包络谱图和对应位置的注意力权重曲线；图5(c)是轴承内圈故障的包络谱图和对应位置的注意力权重曲线；图5(d)轴承滚动体故障的包络谱图和对应位置的注意力权重曲线；如图5(a)至图5(d)所示，对于正常轴承，包络谱中只存在明显的转速频率，它们不能提供识别轴承状态的基本信息，因为它们在所有的工作条件下都很常见，因而注意力权重主要分布在高频的一些噪声上，对于外圈、内圈和滚动体故障的轴承，注意力权重趋向于向故障特征频率所在的低频部分集中，并且在故障频率及其倍频附近存在较高的注意力权重，因此体现了本公开所提方法对于网络诊断结果和先验知识的关联性，直观解释了神经网络诊断结果。

图6(a)至图6(c)分别是基于轴承外圈故障、内圈故障和滚动体故障的本公开所述技术方案与全连接层的注意力机制和点积形式的注意力机制Top-K的准确率的对比图。图6(a)至图6(c)中，横坐标分别表示前1，3，5，10个注意力权重最大的片段中含有故障频率片段的情况，随着K的增大，对方法评价的严格程度逐渐放松，纵坐标表示准确率。在给定的横坐标条件下，纵坐标越高，说明方法的性能越好。由图6(a)至图6(c)可知，对于每种故障，在每个K值下，本公开所述技术方案相比于另外两种方法都具有优越性。

图7(a)至图7(c)分别是基于轴承外圈故障、内圈故障和滚动体故障的本公开所述技术方案与全连接层的注意力机制和点积形式的注意力机制在故障频率处0-1化的注意力权重幅值对比图。图7(a)至图7(c)中，横坐标分别表示故障频率处0-1化的注意力权重幅值大于等于0.95，0.9和0.85，数值越小，对方法评价的严格程度逐渐放松，纵坐标表示在50次实验中故障频率处0-1化的注意力权重幅值大于等于0.95，0.9和0.85出现的次数。在给定的横坐标条件下，纵坐标越高，说明方法的性能越好。由图7(a)至图7(c)可知，对于上述故障，在每个幅值阈值条件下，本公开所述技术方案相比于另外两种方法都具有优越性。

尽管以上结合附图对本公开的实施方案进行了描述，但本公开并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本公开启示下和在不脱离本公开权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本公开保护之列。

Claims

1.一种基于神经网络注意力机制的轴承故障分类方法，包括如下步骤：

S200：将输入样本等分为N个不同片段，记为S_F1，S_F2，S_F3，…，S_FN，并输入神经网络，对每个片段进行处理并提取特征值，对所述特征值进行打分运算和归一化处理，获得与输入样本S_F不同片段S_F1，S_F2，S_F3，…，S_FN相对应的注意力权重α₁，α₂，α₃，…α_N，其中，所述神经网络包括：

输入层，用于将所输入的样本信号等分为若干片段；

卷积层，用于对所述若干片段进行卷积运算，获得每个片段的特征向量；

所述双向门控循环单元层由第一和第二门控循环单元层相互叠加构成，所述第一和第二门控循环单元层的计算过程如下：

r_t＝σ(W_rg·[h_t-1，x_t]+b_rg)

u_t＝σ(W_ug·[h_t-1，x_t]+b_ug)