CN116718377A - 基于小波变换和深度残差注意力机制的轴承故障诊断方法 - Google Patents
基于小波变换和深度残差注意力机制的轴承故障诊断方法 Download PDFInfo
- Publication number
- CN116718377A CN116718377A CN202310478889.3A CN202310478889A CN116718377A CN 116718377 A CN116718377 A CN 116718377A CN 202310478889 A CN202310478889 A CN 202310478889A CN 116718377 A CN116718377 A CN 116718377A
- Authority
- CN
- China
- Prior art keywords
- fault diagnosis
- function
- attention
- representing
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007246 mechanism Effects 0.000 title claims abstract description 42
- 230000009466 transformation Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 99
- 238000011176 pooling Methods 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 11
- 238000005096 rolling process Methods 0.000 description 9
- 230000006378 damage Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000008964 Chemical and Drug Induced Liver Injury Diseases 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 206010072268 Drug-induced liver injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000009347 mechanical transmission Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005476 size effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M13/00—Testing of machine parts
- G01M13/04—Bearings
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明具体涉及基于小波变换和深度残差注意力机制的轴承故障诊断方法,包括:通过小波变换将用作训练样本的原始轴承数据转换为二维时频图像样本;基于深度神经网络和CBAM注意力机制构建对应的故障诊断模型;通过二维时频图像样本及对应的故障类型标签训练故障诊断模型,直至模型收敛;将待诊断的原始轴承数据转换为对应的二维时频图像并输入经过训练的故障诊断模型中,输出对应的故障检诊断结果。本发明能够通过二维时频图像训练得到更稳定且准确率更高的故障诊断模型,并且能够提高对时频图像中轴承故障特征的提取效果,从而能够提高轴承故障诊断的有效性和准确性。
Description
技术领域
本发明涉及轴承故障诊断领域,具体涉及基于小波变换和深度残差注意力机制的轴承故障诊断方法。
背景技术
滚动轴承作为机械设备的关键组成部分之一,在机械传动过程中承担着传递载荷和承担应力的重要作用,根据相关资料的统计数据显示,滚动轴承故障发生率约占旋转机械故障的一半左右,一旦发生故障将会造成严重的经济损失,准确及时诊断滚动轴承的故障可以最大限度避免设备性能下降和危险的发生。
近年来,深度学习在轴承故障诊断方面的应用得到了快速的发展。通过深度学习方法可以省去特征提取和选择的步骤,而直接将轴承的时域或频域信号作为模型的输入。通过将原始振动信号数据和深度学习网络相连接,能够以端到端的形式实现对滚动轴承故障的诊断分类。如,公开号为CN112067294A的中国专利就公开了《一种基于深度学习的滚动轴承智能故障诊断方法》,其采集在多个故障状态和正常状态下的一维时间序列故障数据,并将预处理后的数据划分为训练集、验证集和测试集用以训练建立改进的CNN诊断模型。
申请人发现,现有方案大多以一维数据(即时间序列数据)中多个特征属性信息为依据进行故障诊断。然而,一维的时间序列数据只能在时间轴上展示信号的变化,其包含的描述故障的特征数量较少,仅适用于特定任务且分类准确率并不理想,这导致轴承故障诊断的有效性不好。因此,如何设计一种能够提高模型分类准确率和轴承故障诊断有效性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于小波变换和深度残差注意力机制的轴承故障诊断方法,能够通过二维时频图像训练得到更稳定且准确率更高的故障诊断模型,并且能够提高对时频图像中轴承故障特征的提取效果,从而能够提高轴承故障诊断的有效性和准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于小波变换和深度残差注意力机制的轴承故障诊断方法,包括:
S1:通过小波变换将用作训练样本的原始轴承数据转换为二维时频图像样本;
S2:基于深度神经网络和CBAM注意力机制构建对应的故障诊断模型;
S3:通过二维时频图像样本及对应的故障类型标签训练故障诊断模型,直至模型收敛;
S4:将待诊断的原始轴承数据转换为对应的二维时频图像并输入经过训练的故障诊断模型中,输出对应的故障检诊断结果。
优选的,将所有二维时频图像样本及其对应的故障类型标签划分为训练集、验证集和测试集;训练集用于训练故障诊断模型直至模型收敛;验证集用于评估训练过程中故障诊断模型在未知训练样本上的泛化性;测试集用于评估收敛后的故障诊断模型的故障诊断性能。
优选的,通过如下步骤将原始轴承数据转换为二维时频图像:
S101:对原始轴承数据进行连续小波变换,得到各个尺度下的小波变化系数;
S102:将小波基函数调制为高斯函数,形成复Morlet小波函数;
S103:通过复Morlet小波函数对每个尺度下的小波变化系数进行复Morlet小波变换,得到对应的二维时频图像;
S104:对二维时频图像进行滤波,提取所需的轴承信号;
S105:将二维时频图像进行可视化,并呈现所提取的轴承信号在时频域上的分布。
优选的,连续小波变换的公式描述为:
式中:表示小波变化系数;x(t)表示原始轴承数据;/>表示母小波;/>表示复共轭母小波;a,b∈R且a≠0;a表示尺度因子;b表示时移因子;
步骤S102中,小波基函数公式为:
Φ(z)=exp(-t2/2)*exp(jw0t);
式中:Φ(z)表示小波基函数;exp表示指数函数;j表示虚数单位;w0表示中心频率;t表示时间;
复Morlet小波函数公式为:
式中:Φa,b(z)表示复Morlet小波函数;a表示尺度因子;b表示时移因子。
优选的,将ResNet18网络作为故障诊断模型的骨干网络,并在骨干网络多个不同尺度的卷积层中分别嵌入用于生成包含通道注意力权重和空间注意力权重的加权特征图的CBAM模块,将最后一个CBAM模块输出的加权特征图作为骨干网络的输出;
骨干网络的输出依次经过池化层、归一化层、全连接层和Softmax层后,输出对应的故障检诊断结果。
优选的,将ResNet18网络中的ReLU函数替换为RReLu函数;
ReLU函数的数学表达式为:
式中:f(x)表示ReLU函数;x表示神经元的输入;a1服从均匀分布;
将ReLU函数替换为RReLu函数后,故障诊断模型的残差单元表示为:
式中:xl和xl+1分别表示第l个残差单元的输入与输出;F为残差函数,表示为结构学到的残差;hl(x)=xl表示单位映射;f表示残差单元的激活函数;y1表示前一层特征的残差和本层经过卷积处理的特征相加所得的特征图;Wl表示第l层的卷积权重;
将ReLU函数替换为RReLu函数后,故障诊断模型从L层到L+M层学习到的特征为:
式中:xL+m表示第L+m的特征;xL表示L层特征;xi代表第i层特征;Wi代表第i层卷积权重;L代表L层,m代表层数,F代表第i层的映射函数。
优选的,CBAM模块包括分别用于提取通道注意力权重和空间注意力权重的通道注意力模块和空间注意力模块;
CBAM模块通过如下步骤生成加权特征图:
S201:通过通道注意力模块提取卷积层输出的初始特征图的通道注意力权重;
S202:将初始特征图与通道注意力权重相乘,得到通道注意力特征图;
S203:通过空间注意力模块提取通道注意力特征图的空间注意力权重;
S204:将初始特征图与空间注意力权重相乘,得到加权特征图。
优选的,通道注意力模块通过如下公式提取通道注意力权重:
式中:Mc(F)表示通道注意力权重;F表示初始特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;MLP表示多层感知机操作;表示对初始特征图进行平均池化操作得到的第一特征图;/>表示对初始特征图进行最大池化操作得到的第二特征图;W0、W1表示全连接层;
步骤S202中,通过如下公式生成通道注意力特征图:
式中:F′表示通道注意力特征图;Mc(F)表示通道注意力权重;F表示初始特征图。
优选的,空间注意力模块通过如下公式提取空间注意力权重:
式中:Ms(F′)表示空间注意力权重;F′表示通道注意力特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;表示对通道注意力特征图进行平均池化操作得到的第三特征图;/>表示对通道注意力特征图进行最大池化操作得到的第四特征图;f7×7表示卷积处理,卷积核大小为7×7;
步骤S204中,通过如下公式生成加权特征图:
式中:F″表示加权特征图;Ms(F′)表示空间注意力权重;F表示初始特征图。
优选的,训练故障诊断模型时的损失函数为:
式中:表示交叉熵损失函数;pi表示二维时频图像预测故障类别i的概率值;ε表示标签平滑参数,ε设置为0.1;N表示轴承故障的类别数。
本发明中基于小波变换和深度残差注意力机制的轴承故障诊断方法与现有技术相比,具有如下有益效果:
本发明将原始轴承数据通过小波变换转换为二维时频图像样本,相比一维信号,小波变换后的二维时频图像能够将信号的时间、频率和能量在一张图上,能够在时域特征的基础上增加频域特征即增加了描述故障的特征数量,由于二维时频图像中增加了描述故障的特征数量且携带有更加丰富的信息,使得能够通过二维时频图像训练得到更稳定且准确率更高的故障诊断模型,从而能够提高轴承故障诊断的有效性。
本发明在通过二维时频图像训练故障诊断模型的基础上,进一步构建了基于深度神经网络和CBAM注意力机制的故障诊断模型。一方面,本发明通过深度神经网络强大的图像处理能力来对小波变换后的二维时频图像进行特征提取,能够保证对时频图像中的轴承故障特征的提取效果,以进一步提高故障诊断模型的准确率。另一方面,本发明通过CBAM注意力机制来使故障诊断模型更加关注二维时频图像的关键信息特征,进而能够增大分类任务中不同类别之间的类间差距,并且增强了对同一故障类型下的不同损伤尺度的时频图的敏感度,能够减少其他因素的干扰,即能够进一步提高对时频图像中的轴承故障特征的提取效果,从而能够提高轴承故障诊断的准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于小波变换和深度残差注意力机制的轴承故障诊断方法的流程图;
图2为故障诊断模型(也称为WTA-Net)的网络结构图;
图3为小波变换后的二维时频图像;
图4为骨干网络结构图;
图5为CBAM注意力机制的网络结构图;
图6为通道注意力机制结构图;
图7为空间注意力机制结构图;
图8为训练损失曲线;
图9为模型训练的准确精度;
图10为测试样本的混淆矩阵。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于小波变换和深度残差注意力机制的轴承故障诊断方法。
如图1和图2所示,基于小波变换和深度残差注意力机制的轴承故障诊断方法,包括:
S1:通过小波变换将用作训练样本的原始轴承数据转换为二维时频图像样本;
本实施例中,将所有二维时频图像样本及其对应的故障类型标签划分为训练集、验证集和测试集;训练集用于训练故障诊断模型直至模型收敛;验证集用于评估训练过程中故障诊断模型在未知训练样本上的泛化性;测试集用于评估收敛后的故障诊断模型的故障诊断性能。本发明通过训练集、验证集和测试集能够更好的完成模型训练,以保证模型性能。
S2:基于深度神经网络和CBAM注意力机制构建对应的故障诊断模型;
CBAM是指卷积块注意力模块(Convolutional Block Attention Module,CBAM)。
S3:通过二维时频图像样本及对应的故障类型标签训练故障诊断模型,直至模型收敛;
S4:将待诊断的原始轴承数据转换为对应的二维时频图像并输入经过训练的故障诊断模型中,输出对应的故障检诊断结果。
本实施例中,故障检诊断结果为待诊断原始轴承数据的故障类型。
本发明将原始轴承数据通过小波变换转换为二维时频图像样本,相比一维信号,小波变换后的二维时频图像能够将信号的时间、频率和能量在一张图上,能够在时域特征的基础上增加频域特征即增加了描述故障的特征数量,由于二维时频图像中增加了描述故障的特征数量且携带有更加丰富的信息,使得能够通过二维时频图像训练得到更稳定且准确率更高的故障诊断模型,从而能够提高轴承故障诊断的有效性。
本发明在通过二维时频图像训练故障诊断模型的基础上,进一步构建了基于深度神经网络和CBAM注意力机制的故障诊断模型。一方面,本发明通过深度神经网络强大的图像处理能力来对小波变换后的二维时频图像进行特征提取,能够保证对时频图像中的轴承故障特征的提取效果,以进一步提高故障诊断模型的准确率。另一方面,本发明通过CBAM注意力机制来使故障诊断模型更加关注二维时频图像的关键信息特征,进而能够增大分类任务中不同类别之间的类间差距,并且增强了对同一故障类型下的不同损伤尺度的时频图的敏感度,能够减少其他因素的干扰,即能够进一步提高对时频图像中的轴承故障特征的提取效果,从而能够提高轴承故障诊断的准确性。通过实验表明,本发明方法在凯斯西储大学轴承数据集和IMS数据集定工况的条件下能够准确识别不同故障状态及其严重程度下的轴承运行信息,且准确率可达99.9%,证明了本发明方法的有效性。
具体实施过程中,通过如下步骤将原始轴承数据转换为二维时频图像:
S101:对原始轴承数据进行连续小波变换,得到各个尺度下的小波变化系数;
S102:将小波基函数调制为高斯函数,形成复Morlet小波函数;
S103:通过复Morlet小波函数对每个尺度下的小波变化系数进行复Morlet小波变换,得到对应的二维时频图像;
S104:对二维时频图像进行滤波、分析和处理,提取所需的轴承信号;
S105:将二维时频图像进行可视化,并呈现所提取的轴承信号在时频域上的分布。
连续小波变换的公式描述为:
式中:表示小波变化系数;x(t)表示原始轴承数据;/>表示母小波;/>表示复共轭母小波;a,b∈R且a≠0;a表示尺度因子,a的大小影响/>的长度;b表示时移因子;
小波变换的关键是选用合适的小波基函数,如果信号的波形与所选小波基函数的形状相似,则与小波基函数波形相似的信号将被放大,而具有不同形状特征的信号的其他部分将被抑制。因此,选择合适的小波基函数对小波变换的结果至关重要。
在复morlet小波变换中,小波基函数是一个高斯包络下的单频率复正弦函数,其中复三角函数与频率相对应,而呈指数衰减的高斯函数对应于函数时域的有限支撑。
小波基函数公式为:
Φ(z)=exp(-t2/2)*exp(jw0t);
式中:Φ(z)表示小波基函数;exp表示指数函数;j表示虚数单位;w0表示中心频率;t表示时间;
复Morlet小波函数公式为:
式中:Φa,b(z)表示复Morlet小波函数;a表示尺度因子;b表示时移因子;通过改变a的大小(尺度变换),对小波函数进行伸缩;尺度因子a越大,函数中心频率越低,函数指数衰减越慢,时域支撑区间越大,则频域带宽越小,频域的分辨率越高;尺度因子a越小,变化则相反;时移因子b则实现小波函数在坐标轴上的平移。
本发明在数据处理过程中选择对原始轴承数据做复morlet小波变换,将原始一维数据扩维为二维时频图,二维时频图示例如图3所示。
本发明通过小波变换将原始轴承数据转换为二维时频图像样本,相比一维信号,小波变换后的二维时频图能够将信号的时间、频率和能量在一张图上,能够在时域特征的基础上增加频域特征即增加了描述故障的特征数量,由于二维时频图像中增加了描述故障的特征数量且携带有更加丰富的信息,使得能够通过二维时频图像训练得到更稳定且准确率更高的故障诊断模型。
结合图2所示,故障诊断模型的基本结构和各模块对应的参数如下表。
故障诊断模型的骨干网络采用改进的R-ResNet18网络,虽然ReLU激活函数求解梯度信息时收敛速度十分迅速,但是当神经元的输入值为负数,ReLU函数会将输出设为0,导致神经元权值无法更新,影响网络表达能力。RReLu函数与ReLU函数相比,能够对负值赋予一个非零斜率,尽可能保留负半轴有效信息。
具体实施过程中,将ResNet18网络作为故障诊断模型的骨干网络,并在骨干网络多个不同尺度的卷积层(图2中的Stage1至4)中分别嵌入用于生成包含通道注意力权重和空间注意力权重的加权特征图的CBAM模块,将最后一个CBAM模块输出的加权特征图作为骨干网络的输出;
骨干网络的输出依次经过池化层、归一化层、全连接层和Softmax层后,输出对应的故障检诊断结果。
本发明将ResNet18网络作为故障诊断模型的骨干网络,使得能够利用轻量化模型进行故障检测,以缩短模型训练时间并扩大应用场景。
同时,本发明在骨干网络多个不同尺度的卷积层中分别嵌入用于生成包含通道注意力权重和空间注意力权重的加权特征图的CBAM模块,使得能够通过CBAM注意力机制来使网络更加关注二维时频图的关键信息特征,能够增大分类任务中不同类别之间的类间差距,并且能够增强对同一故障类型下的不同损伤尺度的时频图的敏感度,减少其他因素的干扰,从而能够进一步提高轴承故障诊断的准确性。
具体的,将ResNet18网络中的ReLU函数替换为RReLu函数;
ReLU函数的数学表达式为:
式中:f(x)表示ReLU函数;x表示神经元的输入;a表示一个服从均匀分布的参数;
将ReLU函数替换为RReLu函数后,故障诊断模型的残差单元表示为:
式中:xl和xl+1分别表示第l个残差单元的输入与输出;F为残差函数,表示为结构学到的残差;hl(x)=xl表示单位映射;f表示残差单元的激活函数;y1表示前一层特征的残差和本层经过卷积处理的特征相加所得的特征图;Wl表示第l层的卷积权重;
由上式可以推导出,将ReLU函数替换为RReLu函数后,故障诊断模型从L层到L+M层学习到的特征为:
式中:xL+m表示第L+m的特征;xL表示L层特征;xi代表第i层特征;Wi代表第i层卷积权重;L代表L层,m代表层数,F代表第i层的映射函数。
如图4所示,考虑到经过小波变换得到的二维时频图之间存在差异相比于一维数据能够更适用于轴承故障分类,同时ResNet18中具有的残差连接结构可保留二维时频图信息关键特征。因此,本发明使用RReLU函数替换ResNet18残差块结构中的ReLU激活函数,用于防止梯度消失导致网络性能下降,即能够克服ReLU激活函数存在梯度消失问题,最终使用改进的R-ResNet18网络提高了轴承故障分类效果。并且,使得该网络在具有轻量级模型的参数量的同时具有更优秀的分类性能。
结合图5所示,CBAM模块(机制)结合了通道(channel)与空间(spatial)的注意力,对输入的特征图进行细化,使得网络关注图像中重要的区域。具体来说,CBAM机制使用通道注意力调整通道特征图,通过计算每个通道的重要性来突出最重要的通道。同时,它还使用空间注意力加权原始特征图,以突出最重要的空间位置。这种注意力机制可以帮助网络更好地理解图像中的特征,提高图像分类和检测的准确性。
具体的,CBAM模块包括分别用于提取通道注意力权重和空间注意力权重的通道注意力模块和空间注意力模块;
CBAM模块通过如下步骤生成加权特征图:
S201:通过通道注意力模块提取卷积层输出的初始特征图的通道注意力权重;
S202:将初始特征图与通道注意力权重相乘,得到通道注意力特征图;
S203:通过空间注意力模块提取通道注意力特征图的空间注意力权重;
S204:将初始特征图与空间注意力权重相乘,得到加权特征图。
1)通道注意力机制:
本发明中故障诊断为10分类任务,因相同故障的时频图之间差异较小,模型对不同损伤尺寸的相同故障图像进行分类较为困难,本发明在通道维度增加了通道注意力机制,对不同特征进行加权将重要的特征更加突出地表现出来,旨在使模型挖掘这些数据之间的差异并关注于其中的重要信息从而提高了模型的泛化能力和性能。
结合图6所示,通道注意力机制能够使模型关注图像输入通道的信息,从而提升特征分类精度。为了解决特征图在进行单一的池化时可能出现的信息损失问题,通道注意力机制会对输入的特征图进行全局最大池化和全局平均池化以尽可能保留特征信息,在此之后,模型会使用多层感知机拼接两个全连接层,并激活函数Sigmoid进行输出获得特征图的通道维度的权重矩阵,从而实现对重要信息的提取。
通道注意力模块通过如下公式提取通道注意力权重:
式中:Mc(F)表示通道注意力权重;F表示初始特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;MLP表示多层感知机操作;表示对初始特征图进行平均池化操作得到的第一特征图;/>表示对初始特征图进行最大池化操作得到的第二特征图;W0、W1表示全连接层;
通过如下公式生成通道注意力特征图:
式中:F′表示通道注意力特征图;Mc(F)表示通道注意力权重;F表示初始特征图。
2)空间注意力机制:
结合图7所示,特征图不同区域对特征识别的作用不同,通过空间注意力,可以联系特征图之间的空间关系,并找到重要部位进行处理。具体包括以下步骤:将特征图分成多个区域,采用平均池化生成和最大池化生成/>两个特征图,并将它们连成二通道特征图,最后通过卷积生成空间注意力图。
空间注意力模块通过如下公式提取空间注意力权重:
式中:Ms(F′)表示空间注意力权重;F′表示通道注意力特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;表示对通道注意力特征图进行平均池化操作得到的第三特征图;/>表示对通道注意力特征图进行最大池化操作得到的第四特征图;f7×7表示卷积处理,卷积核大小为7×7;
通过如下公式生成加权特征图:
式中:F″表示加权特征图;Ms(F′)表示空间注意力权重;F表示初始特征图。
综合来看,R-ResNet18网络和CBAM注意力机制对深度学习模型的训练和泛化性能都有了重要的改善作用。
本发明在骨干网络多个不同尺度的卷积层中分别嵌入用于生成包含通道注意力权重和空间注意力权重的加权特征图的CBAM模块,使得能够通过CBAM注意力机制来使网络更加关注二维时频图的关键信息特征,能够增大分类任务中不同类别之间的类间差距,并且能够增强对同一故障类型下的不同损伤尺度的时频图的敏感度,减少其他因素的干扰,从而能够进一步提高轴承故障诊断的准确性。
具体实施过程中,训练故障诊断模型时的损失函数为:
式中:表示交叉熵损失函数;pi相当于输入的图像预测类别i的概率值;ε表示标签平滑参数,用于减小真实标签在计算损失函数时的权重,防止模型的数据集过度拟合,提高模型的泛化能力,ε设置为0.1;N表示轴承故障的类别数。
损失函数还可通过如下公式表示:
式中:表示交叉熵损失函数;qi表示标签分布;N表示轴承故障的类别数;wi表示全连接层第i个类别的权重向量,当二维时频图像样本i的真类别为c时,整合函数取1,否则取0(整合函数相当于标签向量的目标类别概率为1,判定训练样本i的类别为c的概率为1);ε表示标签平滑参数,用于减小真实标签在计算损失函数时的权重,防止模型的数据集过度拟合,提高模型的泛化能力,ε设置为0.1;y表示真实样本标签;a=10;/>表示的是网络权重;f表示的是样本特征向量。
本发明采用标签平滑的交叉熵损失函数来对故障诊断模型进行训练,使得能够训练减少网络的过拟合问题,从而能够进一步提高模型的性能。
为了更好的说明本发明技术方案的优势,本实施例中公开了如下实验。
1、数据集
本实验采用凯斯西储大学的滚动轴承的振动数据集(CWRU,Case WesternReserve UniversityDataset)和辛辛那提原始数据集(IMS,Intelligent MaintenanceSystems)进行实验分析。其中表1代表CWRU数据集的具体内容,选用驱动端轴承数据,选择轴承故障的3种损伤尺寸(0.01778cm、0.03556cm、0.05334),将轴承划分为10种状态标签,具体数据划分及样本量如下:
表1CWRU数据集介绍
其中表2代表第一组IMS数据集,其中包含了四个轴承监测数据,通道1的数据被认为是正常的,通道5的数据被认为是内圈故障,通道3被认为是外圈故障,通道7的数据认为是滚珠故障。将轴承划分为种4标签,具体数据划分及样本量如下:
表2IMS数据集介绍
2、实验细节
本实验选用Adam优化器对模型参数进行优化。在实验中使用了多组初始学习率,发现当学习率接近0.0001时,模型的收敛速度最快经过实验分析选用0.0003为初始学习率并进行训练。将学习率衰减周期设置为30个周期,衰减率设置为0.5。
当训练时间达到70周期时该模型的损失接近平滑,故设置模型训练时间为100个周期。
3、评估指标
本实验基于准确性(ACC)、Kappa评分、F1评分、敏感性(SEN)、特异性(SP)和精确度(PRE)对所提方法的性能进行评估。以模型在轴承故障的敏感性、精度和特异性的平均值作为评价指标。将预测结果中的正样本数设为TP,负样本数设为FP,假阴性数设为FN,真阴性数设为TN,则计算各类别的评价指标如下:
对于多分类任务,最直观的评价指标是全类正确率,即正确分类的样本数与样本总数之比,记为:
精度是预测为阳性的样本数量与真正阳性的样本数量的比例,记为:
灵敏度是被预测为阳性的真阳性样本的比例,数值越高表示漏检的阳性样本越少,记为:
特异性表示被预测为阴性的真阴性样本的比例,值越大表示阴性样本的假阳性较少,记为:
F1分数为Sensitivity和Precision的求和平均值,用于对模型进行综合评价,记为:
4、消融实验
4.1、不同骨干网络实验分析
为体现提出的模型在故障诊断任务中的效果,我们将MobileNetV2、AlexNet、VGG16、GoogLeNet、InceptionNetV3、ResNet18(来自Chen Zhao et al.ResNet18DNN:prediction approach of drug-induced liver injury by deep neural network withResNet18)等多个神经网络模型用于故障诊断中,其中AlexNet、VGG16为无特殊设计的模型,MobileNet、ResNet18为参数量较低的轻量化模型,InceptionNetV3为利用多尺度特征融合的神经网络模型,本实验将上述模型进行结果测试并将参数量和训练时间进行对比。实验结果如表3所示。
表3不同骨干网络的消融实验
如表3所示,本发明模型各项指标相比于AlexNet准确率、F1分数、敏感度、特异性、精确度分别高了1.75%、1.75%、1.74%、1.74%、1.75%,在InceptionNetV3分别高了0.37%、0.26%、0.36%、0.32%、0.14%。
表4参数量与训练时间对比
如表4所示,本发明模型各项指标相比于AlexNet参数量降低了约95%,但训练时间只增加了约15%。
4.2、空间注意力模块
表5空间注意力模块的消融实验
如表5所示,加入空间注意力模块后,相对于R-ResNet18方法分别在准确率、F1分数、特异性、精确度分别提高了0.06%、0.04%、0.13%、0.10%。
4.3、通道注意力模块
表6通道注意力模块的消融实验
如表6所示,加入通道注意力模块后,相对于R-ResNet18方法分别在准确率、F1分数、特异性、精确度分别提高了0.04%、0.06%、0.08%、0.07%。
4.4、CBAM注意力模块
表7CBAM注意力模块的消融实验
如表7所示,加入CBAM注意力模块后,相对于R-ResNet18方法分别在准确率、F1分数、特异性、精确度分别提高了0.47%、0.44%、0.44%、0.44%。从图8、图9可以看到模型loss不断下降,准确精度不断上升,说明模型效果较好。从图10混淆矩阵可知,提出的模型在凯斯西储大学轴承数据集10分类任务中可达到99.9%的分类精度,几乎不存在将某一类别误判为其他类别的情况,诊断结果表现优异。
5、对比实验
表8斯西储大学轴承数据集性能比较
表8列出了本发明模型(WTA-Net网络模型)与近年其他方法在凯斯西储大学轴承数据集上的对比结果,包括MFO-SVM、DBN、WDCNN、DCLSTM、CNN-LSTM。
其中:
MFO-SVM来自袁建明,刘宇,胡志辉等.基于InMPE和MFO-SVM的变负载滚动轴承故障诊断。
DBN来自Weifang Sun et al.An Intelligent Gear Fault DiagnosisMethodology Using a Complex Wavelet Enhanced Convolutional Neural Network。
WDCNN来自Wei Zhang et al.A New Deep Learning Model for FaultDiagnosis with Good Anti-Noise and Domain Adaptation Ability on Raw VibrationSignals。
DCLSTM来自孙洁娣,毛新茹,温江涛等.深度卷积长短期记忆网络的轴承故障诊断。
CNN-LSTM来自陈轲,黄民,李一鸣.基于CNN-LSTM和注意力机制的轴承故障诊断方法。
表9IMS轴承数据集性能比较
表9列出了本发明模型(WTA-Net网络模型)与近年其他方法在IMS轴承数据集上的对比结果,包括RUL、CPD、SAE-LSTM、PCA-LATM、DCNN。
其中:
RUL来自My A,Lxa B,Im A,et al.An effective method for remaining usefullife estimation of bearings with elbow point detection and adaptiveregression models–ScienceDirect。
CPD来自Muktesh Gupta,Rajesh Wadhvani,Akhtar Rasool,Areal-timeadaptive model for bearing fault classification and remaining useful lifeestimation using deep neural network。
SAE-LSTM来自Han T,Pang J,Tan A.Remaining useful life prediction ofbearing based on stacked autoencoder and recurrent neural network。
PCA-LSTM来自Chang Z H,Yuan W,Huang K.Remaining useful life predictionfor rolling bearings using multi-layer grid search and LSTM。
DCNN来自Ding Hua et al.A remaining useful life prediction method forbearing based on deep neural networks。
结合表8和表9可知,与近年其他方法相比,本发明模型(WTA-Net网络模型)在凯斯西储大学和IMS轴承数据集上的指标准确率、精确率、召回率、F1值分别达到了99.99%、99.99%、99.99%和99.99%,因此本发明模型具有优异的综合性能。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,包括:
S1:通过小波变换将用作训练样本的原始轴承数据转换为二维时频图像样本;
S2:基于深度神经网络和CBAM注意力机制构建对应的故障诊断模型;
S3:通过二维时频图像样本及对应的故障类型标签训练故障诊断模型,直至模型收敛;
S4:将待诊断的原始轴承数据转换为对应的二维时频图像并输入经过训练的故障诊断模型中,输出对应的故障检诊断结果。
2.如权利要求1所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于:步骤S1中,将所有二维时频图像样本及其对应的故障类型标签划分为训练集、验证集和测试集;训练集用于训练故障诊断模型直至模型收敛;验证集用于评估训练过程中故障诊断模型在未知训练样本上的泛化性;测试集用于评估收敛后的故障诊断模型的故障诊断性能。
3.如权利要求1所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,通过如下步骤将原始轴承数据转换为二维时频图像:
S101:对原始轴承数据进行连续小波变换,得到各个尺度下的小波变化系数;
S102:将小波基函数调制为高斯函数,形成复Morlet小波函数;
S103:通过复Morlet小波函数对每个尺度下的小波变化系数进行复Morlet小波变换,得到对应的二维时频图像;
S104:对二维时频图像进行滤波,提取所需的轴承信号;
S105:将二维时频图像进行可视化,并呈现所提取的轴承信号在时频域上的分布。
4.如权利要求3所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,步骤S101中,连续小波变换的公式描述为:
式中:表示小波变化系数;x(t)表示原始轴承数据;/>表示母小波;/>表示复共轭母小波;a,b∈R且a≠0;a表示尺度因子;b表示时移因子;
步骤S102中,小波基函数公式为:
Φ(z)=exp(-t2/2)*exp(jw0t);
式中:Φ(z)表示小波基函数;exp表示指数函数;j表示虚数单位;w0表示中心频率;t表示时间;
复Morlet小波函数公式为:
式中:Φa,b(z)表示复Morlet小波函数;a表示尺度因子;b表示时移因子。
5.如权利要求1所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于:步骤S2中,将ResNet18网络作为故障诊断模型的骨干网络,并在骨干网络多个不同尺度的卷积层中分别嵌入用于生成包含通道注意力权重和空间注意力权重的加权特征图的CBAM模块,将最后一个CBAM模块输出的加权特征图作为骨干网络的输出;
骨干网络的输出依次经过池化层、归一化层、全连接层和Softmax层后,输出对应的故障检诊断结果。
6.如权利要求5所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于:将ResNet18网络中的ReLU函数替换为RReLu函数;
ReLU函数的公式为:
式中:f(x)表示ReLU函数;x表示神经元的输入;a1服从均匀分布;
将ReLU函数替换为RReLu函数后,故障诊断模型的残差单元表示为:
式中:xl和xl+1分别表示第l个残差单元的输入与输出;F为残差函数,表示为结构学到的残差;hl(x)=xl表示单位映射;f表示残差单元的激活函数;y1表示前一层特征的残差和本层经过卷积处理的特征相加所得的特征图;Wl表示第l层的卷积权重;
将ReLU函数替换为RReLu函数后,故障诊断模型从L层到L+M层学习到的特征为:
式中:xL+m表示第L+m的特征;xL表示L层特征;xi代表第i层特征;Wi代表第i层卷积权重;L代表L层,m代表层数,F代表第i层的映射函数。
7.如权利要求5所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于:CBAM模块包括分别用于提取通道注意力权重和空间注意力权重的通道注意力模块和空间注意力模块;
CBAM模块通过如下步骤生成加权特征图:
S201:通过通道注意力模块提取卷积层输出的初始特征图的通道注意力权重;
S202:将初始特征图与通道注意力权重相乘,得到通道注意力特征图;
S203:通过空间注意力模块提取通道注意力特征图的空间注意力权重;
S204:将初始特征图与空间注意力权重相乘,得到加权特征图。
8.如权利要求7所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,步骤S201中,通道注意力模块通过如下公式提取通道注意力权重:
式中:Mc(F)表示通道注意力权重;F表示初始特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;MLP表示多层感知机操作;表示对初始特征图进行平均池化操作得到的第一特征图;/>表示对初始特征图进行最大池化操作得到的第二特征图;W0、W1表示全连接层;
步骤S202中,通过如下公式生成通道注意力特征图:
式中:F′表示通道注意力特征图;Mc(F)表示通道注意力权重;F表示初始特征图。
9.如权利要求7所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,步骤S203中,空间注意力模块通过如下公式提取空间注意力权重:
式中:Ms(F′)表示空间注意力权重;F′表示通道注意力特征图;σ表示Sigmoid函数;AvgPool表示平均池化操作;MaxPool表示最大池化操作;表示对通道注意力特征图进行平均池化操作得到的第三特征图;/>表示对通道注意力特征图进行最大池化操作得到的第四特征图;f7×7表示卷积处理,卷积核大小为7×7;
步骤S204中,通过如下公式生成加权特征图:
式中:F″表示加权特征图;Ms(F′)表示空间注意力权重;F表示初始特征图。
10.如权利要求5所述的基于小波变换和深度残差注意力机制的轴承故障诊断方法,其特征在于,步骤S3中,训练故障诊断模型时的损失函数为:
式中:表示交叉熵损失函数;pi表示二维时频图像的预测故障类别为i的概率值;ε表示标签平滑参数;N表示轴承故障的类别数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478889.3A CN116718377A (zh) | 2023-04-28 | 2023-04-28 | 基于小波变换和深度残差注意力机制的轴承故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478889.3A CN116718377A (zh) | 2023-04-28 | 2023-04-28 | 基于小波变换和深度残差注意力机制的轴承故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116718377A true CN116718377A (zh) | 2023-09-08 |
Family
ID=87874120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310478889.3A Pending CN116718377A (zh) | 2023-04-28 | 2023-04-28 | 基于小波变换和深度残差注意力机制的轴承故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116718377A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955965A (zh) * | 2023-09-20 | 2023-10-27 | 山东鑫泰莱光电股份有限公司 | 一种基于太阳能数据故障预测方法、设备以及存储介质 |
CN117152548A (zh) * | 2023-11-01 | 2023-12-01 | 山东理工大学 | 一种抽油机井实测电功图工况识别方法及系统 |
CN117332352A (zh) * | 2023-10-12 | 2024-01-02 | 国网青海省电力公司海北供电公司 | 一种基于BAM-AlexNet的避雷器信号缺陷识别方法 |
CN117636057A (zh) * | 2023-12-13 | 2024-03-01 | 石家庄铁道大学 | 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法 |
CN117874503A (zh) * | 2024-03-11 | 2024-04-12 | 沃德传动(天津)股份有限公司 | 基于cnn的轴承故障诊断方法、电子设备及存储介质 |
-
2023
- 2023-04-28 CN CN202310478889.3A patent/CN116718377A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955965A (zh) * | 2023-09-20 | 2023-10-27 | 山东鑫泰莱光电股份有限公司 | 一种基于太阳能数据故障预测方法、设备以及存储介质 |
CN116955965B (zh) * | 2023-09-20 | 2024-02-02 | 山东鑫泰莱光电股份有限公司 | 一种基于太阳能数据故障预测方法、设备以及存储介质 |
CN117332352A (zh) * | 2023-10-12 | 2024-01-02 | 国网青海省电力公司海北供电公司 | 一种基于BAM-AlexNet的避雷器信号缺陷识别方法 |
CN117152548A (zh) * | 2023-11-01 | 2023-12-01 | 山东理工大学 | 一种抽油机井实测电功图工况识别方法及系统 |
CN117152548B (zh) * | 2023-11-01 | 2024-01-30 | 山东理工大学 | 一种抽油机井实测电功图工况识别方法及系统 |
CN117636057A (zh) * | 2023-12-13 | 2024-03-01 | 石家庄铁道大学 | 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法 |
CN117636057B (zh) * | 2023-12-13 | 2024-06-11 | 石家庄铁道大学 | 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法 |
CN117874503A (zh) * | 2024-03-11 | 2024-04-12 | 沃德传动(天津)股份有限公司 | 基于cnn的轴承故障诊断方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A hybrid attention improved ResNet based fault diagnosis method of wind turbines gearbox | |
Zhang et al. | Intelligent fault diagnosis under varying working conditions based on domain adaptive convolutional neural networks | |
CN116718377A (zh) | 基于小波变换和深度残差注意力机制的轴承故障诊断方法 | |
Wang et al. | A method for rapidly evaluating reliability and predicting remaining useful life using two-dimensional convolutional neural network with signal conversion | |
Zhong et al. | A novel gas turbine fault diagnosis method based on transfer learning with CNN | |
Jiménez et al. | Maintenance management based on machine learning and nonlinear features in wind turbines | |
CN111721536B (zh) | 一种改进模型迁移策略的滚动轴承故障诊断方法 | |
Rajabi et al. | Fault diagnosis in industrial rotating equipment based on permutation entropy, signal processing and multi-output neuro-fuzzy classifier | |
Li et al. | Attention-based deep meta-transfer learning for few-shot fine-grained fault diagnosis | |
Zhang et al. | A fault diagnosis method based on improved convolutional neural network for bearings under variable working conditions | |
CN111680446B (zh) | 一种基于改进多粒度级联森林的滚动轴承剩余寿命预测方法 | |
CN113834656B (zh) | 一种轴承故障诊断方法、系统、设备及终端 | |
CN109033719B (zh) | 一种风力涡轮机轴承故障诊断方法 | |
Maschler et al. | Continual learning of fault prediction for turbofan engines using deep learning with elastic weight consolidation | |
Wang et al. | A combination of residual and long–short-term memory networks for bearing fault diagnosis based on time-series model analysis | |
CN113405799B (zh) | 基于健康状态指标构建和故障预警限自学习的轴承早期故障检测方法 | |
Zhang et al. | Bearing performance degradation assessment based on time-frequency code features and SOM network | |
CN113505655A (zh) | 面向数字孪生系统的轴承故障智能诊断方法 | |
Kumar et al. | The Importance of Feature Processing in Deep‐Learning‐Based Condition Monitoring of Motors | |
Tang et al. | Rolling bearing remaining useful life prediction via weight tracking relevance vector machine | |
CN114091504A (zh) | 一种基于生成对抗网络的旋转机械小样本故障诊断方法 | |
CN116434777B (zh) | 基于多级注意力和特征融合的变压器故障诊断方法及系统 | |
Wang et al. | Multiscale noise reduction attention network for aeroengine bearing fault diagnosis | |
Wang et al. | One-stage self-supervised momentum contrastive learning network for open-set cross-domain fault diagnosis | |
CN114462508A (zh) | 基于多模态神经网络的电力变压器健康状态评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |