CN114861740A - 基于多头注意力机制的自适应机械故障诊断方法及系统 - Google Patents

基于多头注意力机制的自适应机械故障诊断方法及系统 Download PDF

Info

Publication number
CN114861740A
CN114861740A CN202210791142.9A CN202210791142A CN114861740A CN 114861740 A CN114861740 A CN 114861740A CN 202210791142 A CN202210791142 A CN 202210791142A CN 114861740 A CN114861740 A CN 114861740A
Authority
CN
China
Prior art keywords
data
layer
mechanical fault
head attention
wavelet packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210791142.9A
Other languages
English (en)
Other versions
CN114861740B (zh
Inventor
李沂滨
郑维红
宋艳
汪雨晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210791142.9A priority Critical patent/CN114861740B/zh
Publication of CN114861740A publication Critical patent/CN114861740A/zh
Application granted granted Critical
Publication of CN114861740B publication Critical patent/CN114861740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • G01M13/04Bearings
    • G01M13/045Acoustic or vibration analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于故障诊断技术领域,提供了一种基于多头注意力机制的自适应机械故障诊断方法及系统,包括获取机械故障数据并进行预处理;将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征;基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断;本发明多头注意力网络能够自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型,多头注意力机制的应用增加提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。

Description

基于多头注意力机制的自适应机械故障诊断方法及系统
技术领域
本发明属于故障诊断技术领域,具体涉及一种基于多头注意力机制的自适应机械故障诊断方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
最近几年,随着工业对产量和生产规模需求的提高,机械设备结构趋于复杂化,自动化程度逐步提高,通过自动化的机械故障诊断系统实时精准地反馈机械设备的状态信息,是确保机械设备正常运行的重要手段。在工业生产中,通过有效的故障诊断算法对机械设备进行实时的精确监测,可以有效减小事故造成的人身安全威胁和经济损失,保障机械设备的安全运行。目前,故障诊断方法主要有基于模型和数据驱动两种,而基于数据驱动的方法又可以进一步分为基于传统机器学习算法和深度学习算法的方法。
基于传统机器学习算法的故障诊断方法通常需要复杂的特征信息,首先在数据集上进行深度探索性数据分析,然后将对据特征进行降维处理,最后,选择最佳特征传递给机器学习算法。虽然传统机器学习算法结构简单,但当数据不平衡时会导致分类精度下降,而且易受噪声干扰,难以达到很高的准确率。
基于深度学习的故障诊断方法通过深度神经网络自主提取信号中具有较高区别度的高维数据特征,弥补了人工提取机械故障状态特征可能导致特征质量较差的问题。但缺点是深度学习算法需要较大规模的数据集才能训练得到较为成熟的诊断模型,这需要花费大量的训练时间,而且深层神经网络易受噪声干扰,还会发生过拟合现象降低故障诊断准确率。
发明内容
为了解决上述问题,本发明提出了一种基于多头注意力机制的自适应机械故障诊断方法及系统,本发明介绍了一种基于多头注意力机制(Multi-head AttentionMechanism,MHA)和卷积神经网络(Convolutional Neural Network,CNN)的自适应故障诊断算法MHA-CNN,其中,MHA-CNN网络主要由数据预处理、多头注意力机制网络和卷积神经网络三部分组成。首先,数据预处理模块将输入数据经过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;然后,使用多头注意力机制网络进一步提取高维特征数据;最后,将提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
根据一些实施例,本发明的第一方案提供了一种基于多头注意力机制的自适应机械故障诊断方法,采用如下技术方案:
基于多头注意力机制的自适应机械故障诊断方法,包括:
获取机械故障数据并进行预处理;
将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
进一步地,所述获取机械故障数据并进行预处理,包括:
获取同一故障尺寸在同一负载下的机械故障数据并进行数据分割;
对数据分割之后的数据段进行小波包变换;
基于小波包变换后的数据,得到预处理后的机械故障数据。
进一步地,所述在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征,具体为:
使用小波包变换处理后的机械故障数据;
利用多个相同的多头注意力层同时提取同一位置的不同特征信息;
得到机械故障高维特征。
进一步地,所述多头注意力层包括多头注意力机制、归一化层、全连接层;
将小波包变换后的机械故障数据特征矩阵经过多头注意力机制计算得到的结果与小波包变换后的机械故障数据特征矩阵相加,即残差连接;
经过残差连接相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,然后再经过一个层归一化,构成了一个多头注意力层。
进一步地,所述多头注意力机制是采用缩放点积注意力函数对小波变换后的机械故障数据特征矩阵在多个不同的投影空间中建立不同的投影信息得到对应的输出矩阵,将多个输出矩阵经过残差连接后,得到拼接矩阵。
进一步地,所述训练卷积神经网络的过程,包括:
获取机械故障数据进行降噪和归一化预处理;
将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其按7:3划分为训练集和测试集;
在多头注意力网络中通过堆叠多个相同的多头注意力层提取训练集的高维特征数据,得到机械故障高维特征;
将训练集以及机械故障高维特征输入卷积神经网络中计算得到故障诊断结果;
使用交叉熵损失函数计算故障诊断结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;
将测试集数据输入卷积神经网络计算模型准确率,判断卷积神经网络是否收敛,如是则训练结束,否则继续训练,保存训练好的卷积神经网络。
进一步地,所述卷积神经网络由三个依次连接的卷积网络层、全连接层以及softmax层构成;
每一个卷积网络层均包含一个卷积层和一个最大池化层;
全连接层将最后一个卷积网络层的输出展平成为一个一维的特征向量,并将其与最后一个卷积网络层的输出进行全连接;
softmax层将全连接层的输出转化为和为1的概率分布,得到最终的故障诊断分类结果。
进一步地,所述卷积层和最大池化层之间还连接有一个激活函数层;
所述激活函数层将卷积层计算得到机械故障特征图进行去线性化处理。
进一步地,所述卷积网络层还包括批标准化层;
所述批标准化层在每一个小批量机械故障数据中,先对输入进行归一化,然后对归一化的结果进行缩放和平移。
根据一些实施例,本发明的第二方案提供了一种基于多头注意力机制的自适应机械故障诊断系统,采用如下技术方案:
基于多头注意力机制的自适应机械故障诊断系统,包括:
数据采集模块,被配置为获取机械故障数据并进行预处理;
小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
与现有技术相比,本发明的有益效果为:
本发明中多头注意力网络能够自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型,多头注意力机制的应用增加了提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。
本发明中带权重矩阵的残差连接可以使网络更稳定,有更强的鲁棒性,结合卷积神经网络提升了网络的故障分类准确率;
本发明中的多头并行处理可以提升网络的训练速度,使网络能够达到更高的实时性要求。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例中所述的MHA-CNN算法流程图;
图2是本发明实施例中所述的MHA-CNN网络结构图;
图3是本发明实施例中所述的多头注意力网络结构图;
图4是本发明实施例中所述的卷积神经网络结构图;
图5是本发明实施例中所述的波形分割示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,本实施例提供了一种基于多头注意力机制的自适应机械故障诊断方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
基于多头注意力机制的自适应机械故障诊断方法,包括:
获取机械故障数据并进行预处理;
将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
通过带权重矩阵的残差连接将小波包变换得到的特征矩阵和多头注意力网络提取的高维数据特征连接到一起得到特征图,再使用卷积神经网络对该特征图进行故障诊断。
本实施例基于多头注意力机制和卷积神经网络提出一种端到端的自适应神经网络MHA-CNN,如图2为MHA-CNN故障诊断模型结构图。MHA-CNN网络算法流程如图1所示,其算法流程主要步骤为:
(1)对采集的数据进行降噪和归一化预处理;
(2)将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其划分为训练集和测试集数据;
(3)将训练集的数据输入故障诊断模型中计算得到预测结果;
(4)使用交叉熵损失函数计算预测结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;
此处的真实故障指:将采集的数据根据故障类型进行分类,对应不同的标签,是预先已知的数据。预测结果指:将输入数据通过网络计算得到的结果对应一个故障类型,事先未知的数据,可能对也可能错。计算两者之间的差距,差距越小,结果越接近效果越好。
(5)将测试集数据输入网络计算模型准确率,判断网络是否收敛,如是则训练结束,否则继续训练,保存训练好的故障诊断模型。
以Paderborn轴承数据集为例,详细叙述基于小波包变换和多头注意力机制的轴承智能故障诊断方法。
步骤1:数据预处理
(1)数据采集
通过加速度传感器采集轴承的振动加速度信号。本实施采用的试验台主要由电机、扭矩测量轴、滚动轴承测试模块、飞轮和负载电机五个模块组成。轴承故障类型分为健康、内圈故障和外圈故障三种,每种故障类型有5个轴承。每个轴承均在4种不同的运行条件下进行数据采集,每个条件采集20次,采样频率为64 kHz。最终得到400个数据样本。
(2)数据分割
在采集每个数据样本中取取2000个数据段,每段数据包含2048个数据点。为了保证训练数据的随机性,每段数据的分割起始点采用在该区间内随机生成,以达到更好的训练效果。如图5所示,为数据分割的示意图。
(3)小波包变换
对数据分割之后的数据段进行小波包变换。小波包变换的主要的思想是:在小波变换的基础上,在每一级信号分解时,除了对低频子带进行进一步分解,也对高频子带进行进一步分解。最后通过最小化一个代价函数(信息熵函数),计算出最优的信号分解路径,并以此分解路径对原始信号进行分解。
小波包变换中尺度函数
Figure 362905DEST_PATH_IMAGE001
和小波函数
Figure 104596DEST_PATH_IMAGE002
关系可以表达为:
Figure 332770DEST_PATH_IMAGE003
(1)
式中,
Figure 208322DEST_PATH_IMAGE004
Figure 112824DEST_PATH_IMAGE005
为滤波器系数。
Figure 150050DEST_PATH_IMAGE006
(2)
式中:当
Figure 772792DEST_PATH_IMAGE007
时,
Figure 186456DEST_PATH_IMAGE008
Figure 945465DEST_PATH_IMAGE009
。小波包
Figure 419171DEST_PATH_IMAGE010
是尺度函数
Figure 263631DEST_PATH_IMAGE011
以及小波函数
Figure 215406DEST_PATH_IMAGE012
等具有内在联系的函数集合。
尺度函数构成的子空间为
Figure 94500DEST_PATH_IMAGE013
,小波函数构成的子空间为
Figure 473529DEST_PATH_IMAGE014
,令:
Figure 805285DEST_PATH_IMAGE015
(3)
因为:
Figure 295172DEST_PATH_IMAGE016
,所以:
Figure 28773DEST_PATH_IMAGE017
(4)
将式推广到小波包可得:
Figure 844282DEST_PATH_IMAGE018
(5)
由式可推导出小波包分解的一般形式为:
Figure 660404DEST_PATH_IMAGE019
(6)
式中:
Figure 953982DEST_PATH_IMAGE020
Figure 542089DEST_PATH_IMAGE021
Figure 528499DEST_PATH_IMAGE022
由上分析可推导出小波包分解公式为:
Figure 834847DEST_PATH_IMAGE023
(7)
式中:
Figure 932116DEST_PATH_IMAGE024
是第j级小波包系数,
Figure 374730DEST_PATH_IMAGE025
Figure 532042DEST_PATH_IMAGE026
是第
Figure 325685DEST_PATH_IMAGE027
级小波包系数,
Figure 961066DEST_PATH_IMAGE028
Figure 523766DEST_PATH_IMAGE029
是分解系数。
由式可推导出小波包重构公式为:
Figure 851979DEST_PATH_IMAGE030
(8)
式中:
Figure 867339DEST_PATH_IMAGE031
Figure 571990DEST_PATH_IMAGE032
是重构系数。
将由数据分割得到的数据段进行小波包变换,小波函数为离散Meyer小波,分解至第五层,得到32个小波包系数,对系数进行重构得到32×2048的矩阵。
(4)建立数据集
首先给小波包变换之后的数据加标签,根据不同故障类型将数据划分为不同类别,再给这些数据加上对应的标签。如在Paderborn数据集中,数据有三种不同故障类别,分别为健康状态(标签为:0)、内圈故障(标签为:1)和外圈故障(标签为:2)。将同一标签的数据按一定的比例划分为训练集和测试集(本发明中默认为7:3),训练集数据用于训练网络模型,测试集数据用于测试网络模型的准确率。为了保证训练集和测试集的数据无重叠,需要在将数据分割成数据段之前确定训练集和测试集的分割范围,假设样本长度为N,训练集和测试集数量的比例为
Figure 848251DEST_PATH_IMAGE033
,则训练集数据在只能在
Figure 222731DEST_PATH_IMAGE034
之间抽取,测试集则只能在
Figure 850022DEST_PATH_IMAGE035
之间抽取。
步骤2:构建多头注意力网络
如图3所示,使用多头注意力网络对小波包变换之后得到的大小为32×2048的矩阵进行特征提取。多头注意力机制主要思想是使用多个相同的注意力函数同时处理输入来获取同一位置的不同特征信息,这可以增加了提取特征的多样性,且多头之间相互协同有助于网络学习更深层次的数据特征。
本发明中的多头注意力网络结构中主要包括多头注意力机制、层归一化、全连接层。首先将输入经过多头注意力机制计算得到的结果与输入相加,即残差连接,相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,全连接层也使用残差连接,然后再经过一个层归一化,构成了一个多头注意力层。将最后一个层归一化之后的数据经过一个权重矩阵得到多头注意力网络的输出。在多头注意力网络中可以通过堆叠多个多头注意力层来提高网络特征提取的性能,MHA-CNN网络中使用了两层多头注意力层。
(1)注意力函数
当输入为X时,设
Figure 705501DEST_PATH_IMAGE036
Figure 367426DEST_PATH_IMAGE037
Figure 912808DEST_PATH_IMAGE038
,其中
Figure 27395DEST_PATH_IMAGE039
Figure 683635DEST_PATH_IMAGE040
Figure 934488DEST_PATH_IMAGE041
分别对应QKV的权重矩阵。本发明使用的注意力函数为缩放点积注意力函数,其数学表达式为:
Figure 650771DEST_PATH_IMAGE042
(9)
式中:输入由维度为
Figure 252654DEST_PATH_IMAGE043
QK以及维度
Figure 712585DEST_PATH_IMAGE044
V组成,使用softmax函数计算QK的点积除以缩放因子
Figure 817944DEST_PATH_IMAGE045
,获得V的权重。
(2)多头注意力机制
QKV变换为h个矩阵,即:
Figure 829763DEST_PATH_IMAGE046
Figure 528729DEST_PATH_IMAGE047
Figure 651405DEST_PATH_IMAGE048
,其对应维度分别为
Figure 752217DEST_PATH_IMAGE049
Figure 934936DEST_PATH_IMAGE050
Figure 245832DEST_PATH_IMAGE051
,网络输入维度为
Figure 47566DEST_PATH_IMAGE052
。在这h组中的每一组
Figure 127517DEST_PATH_IMAGE053
Figure 619154DEST_PATH_IMAGE054
Figure 151766DEST_PATH_IMAGE055
都对应一个注意力层,经过注意力机制处理之后的结果拼接到一起再经过线性变换得到多头注意力机制的输出。多头注意力机制的数学表达式为:
Figure 491612DEST_PATH_IMAGE056
(10)
式中:
Figure 426070DEST_PATH_IMAGE057
是将矩阵纵向拼接,权重矩阵
Figure 216171DEST_PATH_IMAGE058
Figure 111446DEST_PATH_IMAGE059
的表达式为:
Figure 645196DEST_PATH_IMAGE060
(11)
式中:X为输入,权重矩阵
Figure 309526DEST_PATH_IMAGE061
Figure 4950DEST_PATH_IMAGE062
Figure 653100DEST_PATH_IMAGE063
Figure 459382DEST_PATH_IMAGE064
Figure 368432DEST_PATH_IMAGE065
Figure 375703DEST_PATH_IMAGE066
Figure 104624DEST_PATH_IMAGE067
为缩放因子,
Figure 855542DEST_PATH_IMAGE068
(3)残差连接与层归一化
在多头注意力机制中使用残差连接不仅可以提升网络的收敛速度,还可以使网络更稳定。残差连接是将输入数据经过多头注意力机制计算之后的数据和输入数据相加得到残差连接的输出。因为网络中使用了残差连接,所以网络的输入维度和输出维度应该相同,则:
Figure 619099DEST_PATH_IMAGE069
。将残差连接之后的数据的输出进行层归一化(LayerNormalization,LN)。设输入为X
Figure 656325DEST_PATH_IMAGE070
为输出,则多头注意力机制经过机制归一化之后的数学表达式为:
Figure 279068DEST_PATH_IMAGE071
(12)
式中:
Figure 692731DEST_PATH_IMAGE072
为多头注意力机制的实现,其表达式为,
Figure 177372DEST_PATH_IMAGE073
为层归一化操作,
Figure 385499DEST_PATH_IMAGE074
Figure 229958DEST_PATH_IMAGE075
Figure 181734DEST_PATH_IMAGE076
层归一化是根据样本的特征数做归一化。设H是一层中隐层节点的数量,l是网络的层数,则层归一化的归一化统计量
Figure 919883DEST_PATH_IMAGE077
Figure 439857DEST_PATH_IMAGE078
为:
Figure 896246DEST_PATH_IMAGE079
(13)
Figure 261499DEST_PATH_IMAGE080
(14)
式和中:
Figure 119734DEST_PATH_IMAGE081
为第l层第i个数值。统计量
Figure 810609DEST_PATH_IMAGE077
Figure 223136DEST_PATH_IMAGE078
的计算和样本数量没有关系的,它的数量只取决于隐层节点的数量,所以只要隐层节点的数量足够多,就能保证LN的归一化统计量足够具有代表性。通过
Figure 782294DEST_PATH_IMAGE082
Figure 635980DEST_PATH_IMAGE083
可以得到归一化后的值
Figure 356811DEST_PATH_IMAGE084
Figure 663159DEST_PATH_IMAGE085
(15)
式中:l为网络中第l个网络层,本发明中取
Figure 760428DEST_PATH_IMAGE086
(4)全连接层
每个多头注意力层结构中的全连接层包含两个隐藏层,中间激活函数使用ReLU函数,其输入和输出的维度均为
Figure 203042DEST_PATH_IMAGE087
,隐藏内层的维度为
Figure 94774DEST_PATH_IMAGE088
。则全连接层的数学表达式为:
Figure 619909DEST_PATH_IMAGE089
(16)
式中:
Figure 520869DEST_PATH_IMAGE090
Figure 83569DEST_PATH_IMAGE091
分别为第一层和第二层的权重矩阵,
Figure 146202DEST_PATH_IMAGE092
Figure 286197DEST_PATH_IMAGE093
分别为第一层和第二层的偏置向量。
本发明中的多头注意力网络中取:
Figure 600635DEST_PATH_IMAGE094
Figure 876895DEST_PATH_IMAGE095
Figure 251376DEST_PATH_IMAGE096
。所以多头注意力网络的输出为大小为32×2048的特征矩阵。
步骤3:构建卷积神经网络
如图4所示,使用卷积神经网络对多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后的特征图进行进一步特征提取,并构建分类器将提取的特征进行分类得到网络预测的故障类型。
卷积神经网络是包含卷积运算且具有深度结构的前馈神经网络,网络中稀疏连接和共享权值的特性一方面减少了权值的数量使得网络更易于优化,防止网络过拟合,另一方面也降低了网络结构的复杂度,使其能够组建更深层的网络,以便提取更高维的数据特征。卷积神经网络主要由卷积层、批标准化层、激活函数层、池化层、全连接层和softmax(激活函数)层组成。
(1)卷积层
卷积层的功能是对输入数据进行特征提取,每个卷积层包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏移量。在二维卷积中,将一个二维的矩阵作为卷积层的输入,用I表示;卷积核对应的数据也是一个二维矩阵,用K表示,K的大小为
Figure 878666DEST_PATH_IMAGE097
;则经过卷积计算映射得到的输出特征图也是一个二维矩阵,用S表示。则在S中坐标为
Figure 996795DEST_PATH_IMAGE098
的卷积表达式为:
Figure 393141DEST_PATH_IMAGE099
(17)
式中:
Figure 63157DEST_PATH_IMAGE100
表示输出特征图中的坐标为
Figure 787530DEST_PATH_IMAGE101
的卷积值,
Figure 833984DEST_PATH_IMAGE102
表示卷积核中坐标为
Figure 960203DEST_PATH_IMAGE103
的权重值,
Figure 801120DEST_PATH_IMAGE104
表示输入特征图中坐标为
Figure 12790DEST_PATH_IMAGE105
的值。
(2)批标准化层
批标标准化可以标准化每一层的输出分布,降低每层数据分布变化带来的影响,从而加快神经网络的训练速度,同时提高神经网络准确率。在每一个小批量数据中,先对输入进行归一化,设
Figure 331775DEST_PATH_IMAGE106
为输入x的均值,
Figure 702714DEST_PATH_IMAGE107
为输入x的方差,然后对归一化的结果进行缩放和平移。在训练期间,该层将运行其计算的平均值和方差的估计值,然后在验证期间使用这些估计值进行标准化。批标准化的数学表达式为:
Figure 592828DEST_PATH_IMAGE108
(18)
式中:
Figure 416428DEST_PATH_IMAGE109
Figure 414471DEST_PATH_IMAGE110
是可学习的参数向量,分别代表尺度和平移参数,其维度与输入x的维度相同。本发明中默认
Figure 905495DEST_PATH_IMAGE111
取值为
Figure 822635DEST_PATH_IMAGE112
Figure 8897DEST_PATH_IMAGE113
Figure 935265DEST_PATH_IMAGE114
(3)激活函数层
由于卷积操作是特殊的线性变换,因此需要将卷积计算得到的特征图输入到池化层之前做去线性化处理,也就是需要在卷积层和池化层之间加一个激活层,使用激活函数将原本线性不可分的多维特征映射到另一空间,在这个空间中,特征的线性可分性将增强。本发明中使用的激活函数有ReLU函数。ReLU函数数学表达式如下:
Figure 890583DEST_PATH_IMAGE115
(19)
式中:
Figure 244203DEST_PATH_IMAGE116
为使用激活函数计算之后的取值,
Figure 917761DEST_PATH_IMAGE117
输入特征图中坐标为
Figure 382241DEST_PATH_IMAGE118
的特征值。
(4)池化层
池化层是使用池化函数对卷积操作得到的特征映射结果做进一步处理,也就是将特征图某一位置及其相邻位置的特征进行统计汇总,并将这个结果作为该池化区域的特征值输出,从而映射得到新的特征图,其本质相当于降采样操作。本发明中使用最大值池化函数,即将输入特征图中池化区域的最大值作为该区域的池化输出值。最大值池化过程的数学表达式为:
Figure 582278DEST_PATH_IMAGE119
(20)
式中:
Figure 982166DEST_PATH_IMAGE120
为第l层中坐标为
Figure 2075DEST_PATH_IMAGE121
的特征值;S为池化区域的面积;
Figure 411191DEST_PATH_IMAGE122
为输入特征图中坐标为
Figure 465734DEST_PATH_IMAGE123
的特征值,d为步长。
(5)全连接层和softmax层
全连接层在整个卷积神经网络中起到“分类器”的作用,即将前面卷积层和池化层提取的高维特征映射到样本空间。全连接层的具体做法是将最后一个池化层的输出展平成为一个一维的特征向量作为全连接层的输入,将输入与神经元之间进行全连接,其中隐含层使用ReLU函数作为激活函数,中间可以包含多个不同神经元个数的隐藏层。在最后一个输出层采用的是激活函数是softmax函数,其目的是将输出转化为和为1的概率分布,概率的最大值对应的标签则为网络预测的故障状态。
全连接层的正向传播公式为:
Figure 36524DEST_PATH_IMAGE124
(21)
式中:
Figure 543729DEST_PATH_IMAGE125
为第l层第i个神经元与第
Figure 615590DEST_PATH_IMAGE126
层第j个神经元之间的权值,
Figure 397077DEST_PATH_IMAGE127
为第
Figure 528981DEST_PATH_IMAGE128
层第j个输出神经元的取值,
Figure 398848DEST_PATH_IMAGE129
为第l层所有神经元对第
Figure 274400DEST_PATH_IMAGE128
层第j个神经元的偏置值。
Figure 913323DEST_PATH_IMAGE128
层为输出层时,激活函数为softmax函数,其数学表达式为:
Figure 950549DEST_PATH_IMAGE130
(22)
式中:
Figure 307712DEST_PATH_IMAGE131
为第
Figure 721376DEST_PATH_IMAGE128
层第i个输出神经元的取值,
Figure 339439DEST_PATH_IMAGE132
为第l层第i个神经元的特征值。
本发明中的卷积神经网络模块由三个卷积网络层堆叠而成,每一个卷积网络层均包含一个卷积层、一个批标准化层、一个ReLU层和一个最大池化层。第一个卷积网络层卷积核大小为2×8,步长为2×8,卷积核数量为16;第二个卷积网络层卷积核大小为2×4,步长为2×4,卷积核数量为32;第三个卷积网络层卷积核大小为2×2,步长为2×2,卷积核数量为64。第一和第二个全连接层的神经元个数分别为100和n,softmax输出节点数为n。其中n为数据集中故障类型的总数,全连接层的dropout均为0.1。
步骤4:构建MHA-CNN网络
本发明基于多头注意力机制和卷积神经网络提出一种端到端的自适应神经网络MHA-CNN,如图2为MHA-CNN故障诊断模型结构图。MHA-CNN网络主要由数据预处理、多头注意力网络和卷积神经网络三部分组成,网络训练的损失函数为交叉熵损失函数,优化器为Adam优化器。
假设小波包变换之后的数据为X,
Figure 688512DEST_PATH_IMAGE133
为网络预测的故障类别标签,则MHA-CNN网络的表达式为:
Figure 392026DEST_PATH_IMAGE134
(23)
式中:
Figure 484747DEST_PATH_IMAGE135
运算符为进行多次相同的操作,
Figure 222896DEST_PATH_IMAGE136
Figure 601924DEST_PATH_IMAGE137
Figure 933680DEST_PATH_IMAGE138
Figure 689146DEST_PATH_IMAGE139
Figure 422747DEST_PATH_IMAGE140
Figure 972677DEST_PATH_IMAGE141
为多头注意力运算,
Figure 806377DEST_PATH_IMAGE142
为层归一化运算,
Figure 99955DEST_PATH_IMAGE143
为卷积运算,
Figure 688062DEST_PATH_IMAGE144
批归一化运算,
Figure 674473DEST_PATH_IMAGE145
为池化运算,
Figure 574296DEST_PATH_IMAGE146
为矩阵展平操作。
综上所述,本实施例所述的基于多头注意力机制的自适应机械故障诊断方法主要有以下几个关键点:
1. 对采集的数据进行预处理。预处理模块包括:数据分割、小波包变换、建立训练集和测试集数据;
2. 构建多头注意力网络。多头注意力网络中包括:多头注意力机制、层归一化、全连接层;
3. 构建卷积神经网络。卷积神经网络中包括:卷积层、批归一化层、激活函数层、池化层、全连接层和softmax层;
4. 构建MHA-CNN网络。将多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
本实施例构建了自适应故障诊断网络MHA-CNN;通过多头注意力网络对小波包变换之后的数据进行特征提取,自适应地选择与故障类型相关度更高的频率数据特征来训练网络模型;将多头注意力网络提取的高维特征数据和小波包分解得到的特征矩阵经过带权重矩阵的残差连接之后输入到卷积神经网络进行故障诊断。
实施例二
本实施例提供了一种基于多头注意力机制的自适应机械故障诊断系统,包括:
数据采集模块,被配置为获取机械故障数据并进行预处理;
小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于多头注意力机制的自适应机械故障诊断方法,其特征在于,包括:
获取机械故障数据并进行预处理;
将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
2.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述获取机械故障数据并进行预处理,包括:
获取同一故障尺寸在同一负载下的机械故障数据并进行数据分割;
对数据分割之后的数据段进行小波包变换;
基于小波包变换后的数据,得到预处理后的设备故障数据。
3.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据,得到机械故障高维特征,具体为:
使用小波包变换处理后的机械故障数据;
利用多个相同的多头注意力层同时提取同一位置的不同特征信息;
得到机械故障高维特征。
4.如权利要求3所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述多头注意力层包括多头注意力机制、层归一化、全连接层;
将小波包变换后的机械故障数据特征矩阵经过多头注意力机制计算得到的结果与小波包变换后的机械故障数据特征矩阵相加,即残差连接;
经过残差连接相加后的数据经过层归一化,然后经过包含两个隐藏层的全连接层,然后再经过一个层归一化,构成了一个多头注意力层。
5.如权利要求4所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述多头注意力机制是采用缩放点积注意力函数对小波变换后的机械故障数据特征矩阵在多个不同的投影空间中建立不同的投影信息得到对应的输出矩阵,将多个输出矩阵经过残差连接后,得到拼接矩阵。
6.如权利要求1所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述训练卷积神经网络的过程,包括:
获取机械故障数据进行降噪和归一化预处理;
将预处理后的数据切分为数据段,将切分后的数据段进行小波包变换,再将其按7:3划分为训练集和测试集;
在多头注意力网络中通过堆叠多个相同的多头注意力层提取训练集的高维特征数据,得到机械故障高维特征;
将多头注意力网络提取的机械故障高维特征输入卷积神经网络中计算得到故障诊断结果;
使用交叉熵损失函数计算故障诊断结果和真实故障之间的差距,并通过Adam优化器反向传播优化网络中的参数;
将测试集数据输入卷积神经网络计算模型准确率,判断卷积神经网络是否收敛,如是则训练结束,否则继续训练,保存训练好的卷积神经网络。
7.如权利要求6所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积神经网络由三个依次连接的卷积网络层、全连接层以及softmax层构成;
每一个卷积网络层均包含一个卷积层和一个最大池化层;
全连接层将最后一个卷积网络层的输出展平成为一个一维的特征向量,并将其与最后一个卷积网络层的输出进行全连接;
softmax层将全连接层的输出转化为和为1的概率分布,得到最终的故障诊断分类结果。
8.如权利要求7所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积层和最大池化层之间还连接有一个激活函数层;
所述激活函数层将卷积层计算得到机械故障特征图进行去线性化处理。
9.如权利要求7所述的基于多头注意力机制的自适应机械故障诊断方法,其特征在于,所述卷积网络层还包括批标准化层;
所述批标准化层在每一个小批量机械故障数据中,先对输入进行归一化,然后对归一化的结果进行缩放和平移。
10.基于多头注意力机制的自适应机械故障诊断系统,其特征在于,包括:
数据采集模块,被配置为获取机械故障数据并进行预处理;
小波包变换模块,被配置为将预处理后的机械故障数据进行小波包变换,通过小波包分解至第五层的各个节点小波包系数重构得到特征矩阵;
特征提取模块,被配置为在多头注意力网络中通过堆叠多个相同的多头注意力层提取小波包变换后的机械故障数据的高维特征数据,得到机械故障高维特征;
故障诊断模块,被配置为基于小波包变换后的机械故障数据以及机械故障高维特征,利用预先训练好的卷积神经网络进行故障诊断。
CN202210791142.9A 2022-07-07 2022-07-07 基于多头注意力机制的自适应机械故障诊断方法及系统 Active CN114861740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210791142.9A CN114861740B (zh) 2022-07-07 2022-07-07 基于多头注意力机制的自适应机械故障诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210791142.9A CN114861740B (zh) 2022-07-07 2022-07-07 基于多头注意力机制的自适应机械故障诊断方法及系统

Publications (2)

Publication Number Publication Date
CN114861740A true CN114861740A (zh) 2022-08-05
CN114861740B CN114861740B (zh) 2022-11-04

Family

ID=82625587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210791142.9A Active CN114861740B (zh) 2022-07-07 2022-07-07 基于多头注意力机制的自适应机械故障诊断方法及系统

Country Status (1)

Country Link
CN (1) CN114861740B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099288A (zh) * 2022-08-24 2022-09-23 中国人民解放军国防科技大学 一种基于小波域自注意力机制的故障辨识方法及相关组件
CN115771165A (zh) * 2022-12-06 2023-03-10 华中科技大学 无故障样本下的工业机器人故障检测与定位方法、系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830127A (zh) * 2018-03-22 2018-11-16 南京航空航天大学 一种基于深度卷积神经网络结构的旋转机械故障特征智能诊断方法
WO2021212891A1 (zh) * 2020-04-22 2021-10-28 青岛鼎信通讯股份有限公司 一种采用卷积神经网络的故障电弧信号检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830127A (zh) * 2018-03-22 2018-11-16 南京航空航天大学 一种基于深度卷积神经网络结构的旋转机械故障特征智能诊断方法
WO2021212891A1 (zh) * 2020-04-22 2021-10-28 青岛鼎信通讯股份有限公司 一种采用卷积神经网络的故障电弧信号检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐丹雅: ""基于多源域自适应的机械故障诊断方法研究"", 《中国优秀硕士学位论文全文数据库(电子期刊)工程科技Ⅱ辑》 *
文斌 等: ""MHSACAE-CNN在噪声下的电机轴承故障诊断"", 《振动工程学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099288A (zh) * 2022-08-24 2022-09-23 中国人民解放军国防科技大学 一种基于小波域自注意力机制的故障辨识方法及相关组件
CN115771165A (zh) * 2022-12-06 2023-03-10 华中科技大学 无故障样本下的工业机器人故障检测与定位方法、系统
CN115771165B (zh) * 2022-12-06 2024-06-04 华中科技大学 无故障样本下的工业机器人故障检测与定位方法、系统

Also Published As

Publication number Publication date
CN114861740B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN114861740B (zh) 基于多头注意力机制的自适应机械故障诊断方法及系统
CN112417954B (zh) 一种面向小样本数据集的轴承故障模式诊断方法及系统
CN115018021B (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
CN112001306A (zh) 基于深度卷积对抗生成神经网络的脑电信号解码方法
CN112766355B (zh) 一种标签噪声下的脑电信号情绪识别方法
CN113203566B (zh) 一种基于一维数据增强和cnn的电机轴承故障诊断方法
CN112633195B (zh) 一种基于频域特征与深度学习的心肌梗塞识别分类方法
CN115293280A (zh) 基于时空特征分割重构的动力装备系统异常检测方法
CN111507046B (zh) 一种电动闸阀剩余使用寿命预测方法及系统
CN113705809B (zh) 一种数据预测模型训练方法、工业指标预测方法和装置
CN115290326A (zh) 一种滚动轴承故障智能诊断方法
CN112784920A (zh) 云边端协同的旋转部件对抗域自适应故障诊断方法
CN114363195A (zh) 面向时间和频谱残差卷积网络的网络流量预测预警方法
CN117030263A (zh) 多传感器信号融合下基于改进残差网络的轴承故障诊断方法
CN114595728A (zh) 一种基于自监督学习的信号去噪方法
CN116738354B (zh) 一种电力物联网终端行为异常检测方法及系统
Zhang et al. Intelligent fault diagnosis using image representation of multi-domain features
WO2023231374A1 (zh) 机械设备半监督故障检测分析方法、装置、终端及介质
CN115801152A (zh) 基于层次化transformer模型的WiFi动作识别方法
CN108021873B (zh) 一种聚类非对称互信息的脑电信号癫痫分类方法及系统
CN116304587A (zh) 一种基于cae和agru的滚动轴承退化趋势预测方法
CN115017960A (zh) 一种基于时空联合mlp网络的脑电信号分类方法及应用
CN114168822A (zh) 一种时间序列数据聚类模型建立及时间序列数据聚类方法
CN114595730A (zh) 基于gaf-drsn的滚动轴承故障诊断方法
CN113435321A (zh) 一种主轴轴承状态评估方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant