CN115905806A

CN115905806A - 一种包含注意力机制的深度神经网络轴承故障诊断方法

Info

Publication number: CN115905806A
Application number: CN202211373700.6A
Authority: CN
Inventors: 许越; 徐新志; 翟润昌; 束正华; 陈洋; 张晓光
Original assignee: Anhui Zhizhi Engineering Technology Co ltd
Current assignee: Anhui Zhizhi Engineering Technology Co ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-04-04

Abstract

本发明公开了一种包含注意力机制的深度神经网络轴承故障诊断方法，包括下列步骤：步骤1、通过安装在轴承做或机器外壳上的传感器对轴承原始振动信号进行采样；步骤2、对输入信号进行VMD分解，将分解后的信号随机按比例划分为训练集、验证集和测试集；步骤3、构建SE‑Res网络，该网络包括卷积层、注意力层、残差模块层；步骤4、使用训练集对网络进行训练，并用验证集对其进行验证，最后使用测试集作为输入，输出最终的故障诊断结果。本发明能加强特征提取能力，减少网络参数，加强模型的泛化能力，使用sigmoid函数和二元交叉熵代替原有的softmax函数和交叉熵损失，能较准确地对复合故障进行识别判断。

Description

一种包含注意力机制的深度神经网络轴承故障诊断方法

技术领域

本发明属于智能检测技术领域，具体涉及一种包含注意力机制的深度神经网络轴承故障诊断方法。

背景技术

目前轴承的故障诊断流程一般是由振动监测系统收集轴承工作过程中的振动信号，再由现场维护人员对振动信号进行分析，判断出的故障信息。这种方式收集的信息一般包含大量噪声，目前含噪声振动信号需要人工处理进行标注，不仅需要花费大量时间，不同人员之间对信号标签判断的准确程度也不相同，甚至对于无法判断的数据会直接舍弃，当振动信号中包含有不止一种的复合故障时，会给人工判别带来困难。

上述因素导致人工判断的方式效率低下，经验不足的人员判断错误率较高，人工难以全面分析出振动数据中所蕴含的信息，具有片面性，对大型工厂来说，靠人力难以满足日渐增大的维护需求。而智能检测在应用中也同样存在上述问题，对包含大量噪声，并可能存在复合故障的情况，现有的智能检测方法也不能很准确地诊断出轴承故障。

发明内容

本发明的目的是提供一种包含注意力机制的深度神经网络轴承故障诊断方法用于解决现有技术中，由于轴承工作过程中的振动信号包含大量噪声，并可能存在复合故障的情况，导致检测诊断的准确性不足的技术问题。

所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，包括下列步骤：

步骤1、通过安装在轴承做或机器外壳上的传感器对轴承原始振动信号进行采样。

步骤2、对输入信号进行VMD分解，将分解后的信号随机按比例划分为训练集、验证集和测试集。

步骤3、构建SE-Res网络，该网络包括卷积层、注意力层、残差模块层。

步骤4、使用训练集对网络进行训练，并用验证集对其进行验证，最后使用测试集作为输入，输出最终的故障诊断结果。

优选的，所述步骤3具体包括，输入信号经过卷积层后得到特征图，输入注意力层后得到注意力作用下的权重特征图，输入Res-SE模块后得到通道注意力权重，经过池化后被输入多个残差模块堆叠的网络，最后经过池化连接到全连接层，经过SoftMax函数或sigmoid函数输出。

优选的，所述步骤3中，对复合故障使用sigmoid函数输出并通过二元交叉熵函数计算损失。

优选的，混合注意力模块融合了通道注意力与空间注意力，将从上一层传递的输入信息经过全局最大池化，全局平均池化和随机池化，将各自所得的结果经过一个1×1的卷积，分别得到三个特征图，再将它们送入一个共享的神经网络，其激活函数为ReLU函数。

将上述神经网络输出的特征进行Add操作将特征图相加，通道数不变，再经过Sigmoid激活函数将输出限制到0到1之间，将输出的特征图与原图做multiply操作，使输出变回原图大小，生成空间注意力所需的输入特征。

再将其分别做基于通道的最大池化、平均池化和随机池化，经过一个1×1卷积降维为1个通道，再通过sigmoid激活，生成的特征就经过了通道注意力和空间注意力加权。

优选的，所述Res-SE模块将通道注意力模块插入到卷积层后，对重要特征加权，所述通道注意力模块将数据经卷积层处理后通过通道注意力进行全局平均池化，对平均池化后的特征进行两次全连接操作，第一次全连接操作生成的特征用ReLU激活函数进行处理，第二次全连接层使特征恢复到输入的通道数，并用Sigmoid激活函数让每个特征通道的权值固定在0-1之间，对Sigmoid激活函数输出的特征做multiply操作，再与输入的特征进行concatenate拼接。

优选的，所述残差模块在Inception模块后插入了通道注意力模块，对重要特征加权，所述通道注意力模块将数据经卷积层处理后通过通道注意力进行全局平均池化，对平均池化后的特征进行两次全连接操作，第一次全连接操作生成的特征用ReLU激活函数进行处理，第二次全连接层使特征恢复到输入的通道数，并用Sigmoid激活函数让每个特征通道的权值固定在0-1之间，对Sigmoid激活函数输出的特征做multiply操作，再与输入的特征进行concatenate拼接。

优选的，所述Inception模块如图包含有四个分支，使用多个卷积核提取不同尺度的信息，最后使用concatenate运算进行通道组合；本方法中的Inception模块在现有的Inception基础上，针对输入的一维振动信号进行改进，加入恒等变换，通过改进卷积核的大小，保持输入和输出的维度。

优选的，所述步骤2中，采用一种基于相关系数的方法，通过计算不同模态数下分解得到的分量与原信号之间的相关系数满足某一条件，方便快速地确定模态数K。

优选的，所述计算相关系数的方法具体步骤为：

a.初始化惩罚因子α＝2000，模态数k＝2；

b.原始振动信号进行VMD分解；

c.分别计算各IMF分量与原信号间的相关系数ρ′_xy，取最小值为minρ′；

d.分别计算IMF分量间的相关系数ρ″_xy，取最大值为maxρ″；

e.当minρ′＜0.1时，说明分解出多余分量，算法结束，当maxρ″＞0.1时，说明存在过分解，算法结束，若均不满足，则K＝K+1，重复进行步骤b到步骤e。

优选的，所述计算相关系数的方法具体步骤还包括：所述步骤c中，相关系数用于度量两个变量之间的关联性，值在-1到1之间，定义为协方差和标准差的商，计算公式为：

可得k个相关系数ρ′₁，ρ′₂，ρ′₃…P′_k，取最小值为minρ′，其中，conv(x，y)为表示对变量x，y求协方差，E()表示期望，μ_x＝E(x)，μ_y＝E(y)，σ_x、σ_y分别表示x，y的标准差；

所述步骤d中，分别计算IMF分量间的相关系数ρ″_xy，可得(k-1)！个相关系数ρ″₁，ρ″₂，ρ″₃…ρ″_k，取最大值为maxρ″。

本发明具有以下优点：本发明对注意力模块进行了改进，提出了一种包含注意力机制的深度神经网络。该模型中残差模块层可以有效地加深网络，避免梯度爆炸和梯度消失。本方法应用了一种混合注意力模块，用来提取信号中的特征信息，其中还加入了随机池化，加强模型的泛化能力，增强了提取特征的效果。本方法在Inception模块中加入恒等变换与通道注意力模块，加强特征提取能力，减少网络参数。针对复合故障，本方法提出了使用sigmoid函数和二元交叉熵代替原有的softmax函数和交叉熵损失，能较准确地对复合故障进行识别判断。

附图说明

图1为本发明一种包含注意力机制的深度神经网络轴承故障诊断方法中SE-Res网络的流程图。

图2为本发明中混合注意力模块的示意图。

图3为本发明中Res-se模块的示意图。

图4为本发明中残差模块的示意图。

图5为本发明中Inception模块的示意图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

如图1-2所示，本发明提供了一种包含注意力机制的深度神经网络轴承故障诊断方法，包括下列步骤。

这里采用一种基于相关系数的方法，通过计算不同模态数下分解得到的分量与原信号之间的相关系数满足某一条件，方便快速地确定模态数K。

所述计算相关系数的方法具体步骤为：

a.初始化惩罚因子d＝2000，模态数k＝2。

b.对原始振动信号进行VMD分解。

c.分别计算各IMF(Intrinsic Mode Function，本征模态函数)分量与原信号间的相关系数ρ′_xy，相关系数用于度量两个变量之间的关联性，值在-1到1之间，定义为协方差和标准差的商，计算公式为：

可得k个相关系数ρ′₁，ρ′₂，ρ′₃…ρ′_k，取最小值为minρ′，conv(x，y)为表示对变量x，y求协方差，E()表示期望，μ_x＝E(x)，μ_y＝E(y)，σ_x、σ_y分别表示x，y的标准差。

d.分别计算IMF分量间的相关系数ρ″_xy，可得(k-1)！个相关系数ρ″₁，ρ″₂，ρ″₃…ρ″_k，取最大值为maxρ″。

e.当minρ′＜0.1时，说明分解出多余分量，算法结束。

当maxρ″＞0.1时，说明存在过分解，算法结束。

若均不满足，则K＝K+1，重复进行步骤b到步骤e。

所述SE-Res网络的流程图如图1所示，Res网络即Squeeze-and-ExcitationNetworks，SE-Res网络即将SE模块嵌入Res网络形成的新网络。在本方法的网络中，输入的数据依次经过卷积层、注意力层、Res-se模块、池化层1、残差模块1、降维层1、残差模块2、降维层2、残差模块3、降维层3、池化层2和全连接层处理，最后经softmax函数或sigmoid函数输出。

具体来说，输入信号经过卷积层后得到特征图，输入注意力层后得到注意力作用下的权重特征图，输入Res-SE模块后得到通道注意力权重，经过池化后被输入多个残差模块堆叠的网络，最后经过池化连接到全连接层，经过SoftMax函数输出，softmax函数定义如下公式：

其中z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。因此就可以将多分类的输出值转换为范围在[0，1]和为1的概率分布。

若涉及复合故障的诊断时，应最后使用sigmoid函数输出，损失函数使用二元交叉熵。

其中，所述注意力层如图2所示，是一种融合了通道注意力与空间注意力的混合注意力模块，其将从上一层传递的输入信息经过全局最大池化，全局平均池化和随机池化，将各自所得的结果经过一个1×1的卷积，分别得到三个特征图，再将它们送入一个共享的神经网络，其激活函数为ReLU函数，其定义为ReLU(x)＝max(0，x)。ReLU函数是目前神经网络中经常使用的激活函数，采用ReLU的神经元只需要进行加、乘和比较的操作，计算上更加高效，且在x＞0时导数为1，在一定程度上缓解了神经网络的梯度消失问题，加速梯度下降的收敛速度。

将上述神经网络输出的特征进行Add操作将特征图相加，通道数不变，再经过Sigmoid激活函数将输出限制到0到1之间，Sigmoid函数定义如下式：

从而使这些函数在概率预测中非常实用，将输出的特征图与原图做multiply操作，使输出变回原图大小，生成空间注意力所需的输入特征。再将其分别做基于通道的最大池化、平均池化和随机池化，经过一个1×1卷积降维为1个通道，再通过sigmoid激活，生成的特征就经过了通道注意力和空间注意力加权。相比于其他注意力模块改进之处在于混合了两种注意力机制，所述注意力层增强了提取特征的效果，添加了两个随机池化，提高了模型的泛化能力。

所述Res-SE模块如图3，其将通道注意力模块插入到卷积层后，对重要特征加权。所述残差模块如图4所示，在Inception模块后插入了通道注意力模块。其中Inception模块如图5所示，包含有四个分支，使用多个卷积核提取不同尺度的信息，最后使用concatenate运算进行通道组合。本方法中作用的Inception模块在现有的Inception基础上，针对输入的一维振动信号进行改进，加入恒等变换，通过改进卷积核的大小，保持输入和输出的维度；这样减少计算量，减少网络参数。

该通道注意力模块将数据经卷积层处理后通过通道注意力进行全局平均池化，对平均池化后的特征进行两次全连接操作，第一次全连接操作生成的特征用ReLU激活函数进行处理，第二次全连接层使特征恢复到输入的通道数，并用Sigmoid激活函数让每个特征通道的权值固定在0-1之间，对Sigmoid激活函数输出的特征做multiply操作，再与输入的特征进行concatenate拼接，实现进一步提取特征信息，排除噪声干扰的作用。

本方法采用的SE-Res网络中各网络层的参数具体见表1。

表1：本方法所用SE-Res网络的参数表

网络层	卷积核大小	步长	卷积核数目	输出大小
					卷积层1	8	16	128	512x128
注意力层	2	2		512x128
					Res-SE层	3	1		256x128
池化1	2	2		128x128
					残差模块层1	3	1		128x128
降维层1	2	2		64x64
					残差模块层2	3x1	1x1		64x64
降维层2	2x1	2x1		32x64
					残差模块层3	3x1	1x1		32x64
池化层2	2x1	2x1		16x64
					全连接层	100	/	1	100x1
<![CDATA[<u>Softmax</u>/sigmoid]]>	10	/	1	10

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：包括下列步骤：

步骤1、通过安装在轴承做或机器外壳上的传感器对轴承原始振动信号进行采样；

步骤2、对输入信号进行VMD分解，将分解后的信号随机按比例划分为训练集、验证集和测试集；

步骤3、构建SE-Res网络，该网络包括卷积层、注意力层、残差模块层；

2.根据权利要求1所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述步骤3具体包括，输入信号经过卷积层后得到特征图，输入注意力层后得到注意力作用下的权重特征图，输入Res-SE模块后得到通道注意力权重，经过池化后被输入多个残差模块堆叠的网络，最后经过池化连接到全连接层，经过SoftMax函数或sigmoid函数输出。

3.根据权利要求2所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述步骤3中，对复合故障使用sigmoid函数输出并通过二元交叉熵函数计算损失。

4.根据权利要求2所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：混合注意力模块融合了通道注意力与空间注意力，将从上一层传递的输入信息经过全局最大池化，全局平均池化和随机池化，将各自所得的结果经过一个1×1的卷积，分别得到三个特征图，再将它们送入一个共享的神经网络，其激活函数为ReLU函数；

将上述神经网络输出的特征进行Add操作将特征图相加，通道数不变，再经过Sigmoid激活函数将输出限制到0到1之间，将输出的特征图与原图做multiply操作，使输出变回原图大小，生成空间注意力所需的输入特征；

5.根据权利要求2所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述Res-SE模块将通道注意力模块插入到卷积层后，对重要特征加权，所述通道注意力模块将数据经卷积层处理后通过通道注意力进行全局平均池化，对平均池化后的特征进行两次全连接操作，第一次全连接操作生成的特征用ReLU激活函数进行处理，第二次全连接层使特征恢复到输入的通道数，并用Sigmoid激活函数让每个特征通道的权值固定在0-1之间，对Sigmoid激活函数输出的特征做multiply操作，再与输入的特征进行concatenate拼接。

6.根据权利要求2所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述残差模块在Inception模块后插入了通道注意力模块，对重要特征加权，所述通道注意力模块将数据经卷积层处理后通过通道注意力进行全局平均池化，对平均池化后的特征进行两次全连接操作，第一次全连接操作生成的特征用ReLU激活函数进行处理，第二次全连接层使特征恢复到输入的通道数，并用Sigmoid激活函数让每个特征通道的权值固定在0-1之间，对Sigmoid激活函数输出的特征做multiply操作，再与输入的特征进行concatenate拼接。

7.根据权利要求6所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述Inception模块如图包含有四个分支，使用多个卷积核提取不同尺度的信息，最后使用concatenate运算进行通道组合；本方法中的Inception模块在现有的Inception基础上，针对输入的一维振动信号进行改进，加入恒等变换，通过改进卷积核的大小，保持输入和输出的维度。

8.根据权利要求1所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述步骤2中，采用一种基于相关系数的方法，通过计算不同模态数下分解得到的分量与原信号之间的相关系数满足某一条件，方便快速地确定模态数K。

9.根据权利要求8所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述计算相关系数的方法具体步骤为：

a.初始化惩罚因子α＝2000，模态数k＝2；

b.原始振动信号进行VMD分解；

d.分别计算IMF分量间的相关系数ρ″_xy，取最大值为maxρ″；

10.根据权利要求9所述的一种包含注意力机制的深度神经网络轴承故障诊断方法，其特征在于：所述计算相关系数的方法具体步骤还包括：所述步骤c中，相关系数用于度量两个变量之间的关联性，值在-1到1之间，定义为协方差和标准差的商，计算公式为：

可得k个相关系数ρ′₁，ρ′₂，ρ′₃…ρ′_k，取最小值为minρ′，其中，conv(x，y)为表示对变量x，y求协方差，E()表示期望，μ_x＝E(x)，μ_y＝E(y)，σ_x、σ_y分别表示x，y的标准差；