CN112906739B - 基于多头注意力及轴系设备周期性的故障诊断方法 - Google Patents

基于多头注意力及轴系设备周期性的故障诊断方法 Download PDF

Info

Publication number
CN112906739B
CN112906739B CN202110062687.1A CN202110062687A CN112906739B CN 112906739 B CN112906739 B CN 112906739B CN 202110062687 A CN202110062687 A CN 202110062687A CN 112906739 B CN112906739 B CN 112906739B
Authority
CN
China
Prior art keywords
matrix
layer
attention
fault diagnosis
shafting equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110062687.1A
Other languages
English (en)
Other versions
CN112906739A (zh
Inventor
冯肖亮
赵广
闫晶晶
马利
吴兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202110062687.1A priority Critical patent/CN112906739B/zh
Publication of CN112906739A publication Critical patent/CN112906739A/zh
Application granted granted Critical
Publication of CN112906739B publication Critical patent/CN112906739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • G01M13/02Gearings; Transmission mechanisms
    • G01M13/028Acoustic or vibration analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M13/00Testing of machine parts
    • G01M13/04Bearings
    • G01M13/045Acoustic or vibration analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法。该方法包括:步骤1:采集轴系设备若干个周期的待诊断样本,在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理;步骤2:将标准化处理后的样本数据作为多头注意力故障诊断模型的输入,得到故障诊断结果。针对轴系设备振动信号具有周期性、非线性、耦合性的特点,本发明将轴系设备的周期性特征融入到时域故障信号数据中,用两种位置编码区分长距离信息的方向性,具有较强的长距离信息提取能力和较高的并行计算能力。

Description

基于多头注意力及轴系设备周期性的故障诊断方法
技术领域
本发明涉及轴系设备故障诊断技术领域,尤其涉及一种基于多头注意力及轴系设备周期性的故障诊断方法。
背景技术
随着生产发展和科学技术的现代化,使得现代机械设备的结构愈加复杂,各种各样的功能也愈发全面,机械设备自动化的程度也在不断的提高,而轴系设备是其中重要的组成结构。由于许多因素的影响,轴系设备具有其使用寿命,且容易发生故障,可能导致降低其预期功效,停止运转等,甚至造成更严重的灾难性事故。因此,及时发现故障,识别故障类型,不仅有助于延长其使用寿命,也能够有效的避免危险事故的发生。
随着计算机计算能力的不断提升,以及工业监测技术的成熟,在工业领域运用大数据方法对所监测的数据进行分析挖掘,利用数据中潜在的价值信息进行故障诊断有着重要的研究意义,基于数据驱动的故障诊断算法受到越来越多的关注。深度学习是一种基于数据进行表征学习的方法,非常适合于提取大数据特征,进行故障诊断。但是现有的基于深度学习的故障诊断方法,大多是基于卷积神经网络(CNN)和循环神经网络(RNN)框架下的方法(例如,文献1:Abdeljaber O,Avci O,Kiranyaz S,et al.Real-time vibration-basedstructural damage detection using one-dimensional convolutional neuralnetworks[J].Journal of Sound&Vibration, 2017,388:154-170;文献2:Yu J,ZhouX.One-Dimensional Residual Convolutional Autoencoder Based Feature Learningfor Gearbox Fault Diagnosis[J].IEEE Transactions on Industrial Informatics,2020,16(10):6347-6358)。卷积神经网络是一种并行计算的模型,非常适合于GPU的分布式并行计算。但是由于其受制于卷积核的大小,不能完整的提取长距离信息,在轴系设备故障诊断的应用中会出现分类精度低,学习曲线不平稳等缺点。循环神经网络以及其改进模型长短记忆网络(LSTM)(采用该类型网络的方法如文献3:张建付,宋雨,李刚,王传洋,焦亚菲. 基于长短时记忆神经网络的风电机组滚动轴承故障诊断方法[J].计算机测量与控制,2017,25(01):16-19;文献4:Yue G,Ping G,Lanxin L.An End-to-End model based onCNN-LSTM for Industrial Fault Diagnosis and Prognosis[C]//2018 InternationalConference on Network Infrastructure and Digital Content(IC-NIDC). 2018;)擅长提取长距离信息,但是由于其当前计算依赖于上一时刻的计算结果,它必须逐个单元计算,这严重阻碍了GPU并行性的充分发挥。所以在轴系设备的故障诊断中,寻找一种提取长距离信息能力强,并行计算程度高的方法是非常有必要的。
发明内容
针对传统故障诊断方法存在的提取长距离相关性信息困难,或者并行计算程度低的问题,本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法,至少部分地上述问题。
本发明提供一种基于多头注意力及轴系设备周期性的故障诊断方法,包括:
步骤1:采集轴系设备若干个周期的待诊断样本,在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理;
步骤2:将标准化处理后的样本数据作为多头注意力故障诊断模型的输入,得到故障诊断结果。
进一步地,所述多头注意力故障诊断模型的离线训练过程包括以下步骤:
步骤A1:通过m个传感器对轴系设备进行nT次独立采样,得到轴系设备的历史数据矩阵X0,并在矩阵X0中加入轴系设备的周期信息;所述历史数据矩阵X0的每一行代表由m个传感器在同一时刻下采集到的测量数据组成的一个样本,每一列代表一个传感器在不同时刻下采集到的nT个测量数据,T为轴系设备旋转一周所采集的样本个数;m和n均为正整数;
步骤A2:对加入轴系设备的周期信息后的历史数据矩阵X0进行标准化处理,得到标准化处理后的矩阵X1
步骤A3:采用第一前馈网络,且不使用激活函数,根据矩阵X1生成新的矩阵
Figure BDA0002902932220000021
其中,所述第一前馈网络为全连接的前馈网络,N表示第一前馈网络的神经元个数,Dx=m+1;
步骤A4:对矩阵X2按照第一位置编码方式进行位置编码,得到新的矩阵
Figure BDA0002902932220000022
步骤A5:将矩阵X3送入由num层多头自注意力层堆叠而成的网络层,并在所述网络层引入第二位置编码方式,然后按照第二位置编码方式对所述网络层的数据进行位置编码;
步骤A6:将步骤A5中的运算结果送入第二前馈网络,且采用relu函数激活,再进行Flatten操作,将结果展平成二维,最后经过一个含有n_class个神经元的前馈网络,且采用Softmax函数激活,输出分类结果;其中,n_class表示故障模式的类型个数;
步骤A7:重复步骤A3到步骤A6,直到故障分类精度达到要求,或迭代次数达到设定次数。
进一步地,步骤A2中,对所述历史数据矩阵X0按照公式(2)进行标准化处理:
X1k=(X0k-X0k_mean)/X0k_std (2)
其中,X1k表示矩阵X1的第k列元素,X0k表示矩阵X0的第k列元素,X0k_mean 表示第k列元素的均值,X0k_std表示第k列元素的标准差,k=1,2,…m。
进一步地,还包括对矩阵X1进行扩维,将矩阵X1的大小变为(m,nT+1,1),具体包括:
X1=[x11,x12,…,x1m],其中
Figure BDA0002902932220000031
的每一个元素都是一个Dx行1列的矩阵。
进一步地,步骤A3中,按照公式(3)根据矩阵X1生成新的矩阵 X2=[x21,x22,…,x2m]:
x2m=x1mω+b (3)
其中,ω∈R1×N,ω和b是全连接层的可训练参数。
进一步地,步骤A4中,所述第一位置编码方式如公式(4)所示:
Figure 2
其中,
Figure BDA0002902932220000033
pos是一个在[0,Dx]内的序列数组,j是一个在[0,N/2]范围内的序列数组,T1 是缩放因子。
进一步地,步骤A5中,每层所述多头自注意力层包括第一子层和第二子层,第一子层为multi-head attention机制层,第二子层为位置完全连接的前馈网络;第一子层和第二子层后端均采用一个残差连接,然后进行层标准化。
进一步地,所述第一子层对矩阵X3的处理过程包括:
步骤B1:按照公式(5)对输入向量X3投影到三个不同的向量空间Q、K和V 中:
Figure BDA0002902932220000041
其中,Wq、Wk和Wv表示第一子层的可训练参数;
步骤B2:根据多头注意力层的头数M按照公式(6)对向量空间Q、K和V进行分头操作,并按照公式(7)交换维度次序:
Figure BDA0002902932220000042
Figure BDA0002902932220000043
其中,i=1,2,...,M;
步骤B3:按照公式(8)对各个Qi、Ki和Vi进行线性加权运算,得到对应的运算结果Hi;或者,按照公式(9)对各个Qi、Ki和Vi进行扩大点积运算,得到对应的运算结果Hi
Figure BDA0002902932220000044
Figure BDA0002902932220000045
Figure 3
其中,
Figure BDA0002902932220000052
μi和η是第一子层的可训练参数矩阵,
Figure BDA0002902932220000053
Figure BDA0002902932220000054
公式(8)和公式(9)中的PE*表示公式(10)所示的第二位置编码方式;pos是一个在[0,Dx]内的序列数组,j是一个在[0,N/2]范围内的序列数组;
步骤B4:将多个运算结果Hi按照公式(12)进行拼接组合得到多头注意力MultiHead(H):
MultiHead(H)=Concat[H1,...,HM]·W0 (12)
其中,W0∈RN×N是第一子层的可训练参数,
Figure BDA0002902932220000055
进一步地,所述多头注意力故障诊断模型的离线训练过程还包括:
步骤A9:通过m个传感器对轴系设备进行采样,得到新的样本数据作为验证集,在所述验证集中加入轴系设备的周期性信息后进行标准化处理,将标准化处理后的样本数据输入步骤A8得到的模型,然后对模型性能进行评估,若模型性能达到设定要求,则模型的离线训练过程结束。
进一步地,所述多头注意力故障诊断模型的离线训练过程中,采用交叉熵损失函数作为损失函数。
本发明的有益效果:
(1)将轴系设备的周期性信息融入数据中,使用扩大点积注意力与线性加权注意力来消除多头注意力的低秩瓶颈问题,从而取得了更好的故障诊断效果。
(2)注意力机制能借由注意力权重矩阵计算出相应的注意力特征,进而模型在训练阶段能关注重点特征,减少冗余和非敏感特征对模型的影响。
(3)在处理长距离信息的问题中,当前时刻的信息有时不仅与前面的信息有关,还可能和未来的信息有关。但在多头注意力网络中,区分信息的方向却并不容易。本发明在权重矩阵引入PE*,注意力机制将可以较为容易的区分不同方向的信息。
(4)轴系设备在工作过程中测取的振动信号,其数据间存在着复杂的非线性、耦合关系,属于存在长距离相关性的时序信息。在深度学习的故障诊断方法中,CNN并行计算程度高,但受卷积核大小的限制,提取长距离信息的能力不强。RNN提取长距离信息的能力强,但由于其当前时刻的计算依赖于上一时刻的计算结果,它必须逐个单元计算,这严重阻碍了GPU并行性的充分发挥。本发明所提出的故障诊断方法,跳出了CNN和RNN的框架,用一种带有注意力机制的全连接网络,既具有提取长距离信息能力强的特点,也有并行计算程度高,适合GPU运算的特点,而且又考虑了轴系设备周期性,是现在较为先进的故障诊断方案。
附图说明
图1为本发明实施例提供的多头注意力故障诊断模型的结构示意图;
图2为现有技术提供的ZHS-2型多功能电机柔性转子试验台的结构示意图;
图3为本发明实施例提供的线性加权注意力机制和扩展点积注意力机制的示意图;
图4为本发明实施例提供的七种深度学习模型在测试集上的学习曲线;
图5为本发明实施例提供的五种多头注意力模型在测试集上的学习曲线;
图6为本发明实施例提供的Bi_P_EX-MHA与P_EX-MHA在测试集上的学习曲线对比;
图7为本发明实施例提供的Bi_P_L-MHA模型在验证集上的混淆矩阵。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种基于多头注意力及轴系设备周期性的故障诊断方法,包括:
S101:采集轴系设备若干个周期的待诊断样本,在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理;
S102:将标准化处理后的样本数据作为多头注意力故障诊断模型的输入,得到故障诊断结果。
具体地,所述多头注意力故障诊断模型的结构如图1所示,所述多头注意力故障诊断模型的离线训练过程包括以下步骤:
步骤A1:通过m个传感器对轴系设备进行nT次独立采样,得到轴系设备的历史数据矩阵X0,并在矩阵X0中加入轴系设备的周期信息;所述历史数据矩阵X0的每一行代表由m个传感器在同一时刻下采集到的测量数据组成的一个样本,每一列代表一个传感器在不同时刻下采集到的nT个测量数据,T为轴系设备旋转一周所采集的样本个数;m和n均为正整数;n表示测量了n个周期T的数据;
步骤A2:对加入轴系设备的周期信息后的所述历史数据矩阵X0进行标准化处理,得到标准化处理后的矩阵X1
步骤A3:采用第一前馈网络,且不使用激活函数,根据矩阵X1生成新的矩阵
Figure BDA0002902932220000071
其中,所述第一前馈网络为全连接的前馈网络,N表示第一前馈网络的神经元个数,Dx=m+1;
步骤A4:对矩阵X2按照第一位置编码方式进行位置编码,得到新的矩阵
Figure BDA0002902932220000072
步骤A5:将矩阵X3送入由num层多头自注意力层堆叠而成的网络层,并在所述网络层引入第二位置编码方式,然后按照第二位置编码方式对所述网络层的数据进行位置编码;通过第一位置编码方式和第二位置编码方式区分信息方向,信息方向包括当前时刻之前的信息和当前时刻之后的信息;
步骤A6:将步骤A5中的运算结果送入第二前馈网络,且采用relu函数激活,再进行Flatten操作,将结果展平成二维,最后经过一个含有n_class个神经元的前馈网络,且采用Softmax函数激活,输出分类结果;其中,n_class表示故障模式的类型个数;
步骤A7:重复步骤A3到步骤A6,直到故障分类精度达到要求,或迭代次数达到设定次数。
针对轴系设备振动信号具有周期性、非线性、耦合性的特点,本发明实施例提供的基于多头注意力及轴系设备周期性的故障诊断方法,将轴系设备的周期性特征融入到时域故障信号数据中。另外,用两种位置编码区分长距离信息的方向性,具有较强的长距离信息提取能力和较高的并行计算能力。
实施例2
为了进一步对本发明的故障诊断方法进行阐述,本发明实施例还提供有以下可实施方式:
以ZHS-2型多功能电机柔性转子试验台作为轴系设备为例,试验台结构如图2所示。本实施例中,使用8个安装在转子支撑座的水平方向的振动加速度传感器采集试验台的待诊断样本,具体而言,该待诊断样本为该试验台转子的时域振动信号,信号通过HG8902采集箱传输至上位机。
该试验台可以模拟轴系设备多种运行模式,包括转子不平衡故障模式、滚珠故障模式、风机断叶故障模式、基座松动故障模式、齿轮断齿故障模式和正常运行模式等,本实施例采取七种运行模式:转子不平衡(1颗螺钉)、转子不平衡(3 颗螺钉)、转子不平衡(5颗螺钉)、转子不平衡(7颗螺钉)、风机断叶故障模式、基座松动故障模式和正常运行模式。
在该电机转子系统中,传感器采集的振动信号可以反映出人为设置的运行模式所引发的不正常振动,不同运行模式下,设备的振动幅值会发生一定的变化。设定电机转子转速为1500r/m,传感器的系统误差根据其生产厂商提供的精度设定为△=±1%。在每种模式下,连续采集240s共3072000个数据点。电机转子转速为1500r/m,则电机每秒25转,每个传感器在240s收集到3072000个数据点,则电机每转一圈,每个传感器收集到3072000/(25*240)=512个数据。则电机每转一圈,8个传感器收集到512*8=4096个数据。为了扩大单个样本,模拟更多传感器的大型设备,提高训练效率,这里我们对样本做了折段处理,增大单个样本,取每行数据有8倍个原样本,即每行有8*8=64个数据,则每转有4096/64=64 个样本。
在上述设定数据的基础上,本发明实施例具体包括以下步骤:
步骤S201:获得转子平台上所安装的m(该实施例中,m=8)个传感器进行的nT次独立采样所构成的历史数据矩阵X0,然后针对该矩阵X0,给同一旋转圈数的样本加入周期信息1,2…T,得到具有轴系设备的周期信息的矩阵X0,如公式(1)所示:
Figure BDA0002902932220000091
在x0m(nT)中,m=64,T=64,n=3072000/(8*64)=6000。
本发明实施例将轴系设备周期性的特点融入时域故障信号中,增强了模型对故障信号的提取能力。
步骤S202:为了消除因量纲不同引起的误差的影响,在进行故障诊断前对矩阵X0需进行相应的标准化处理,具体为按照公式(2)进行标准化处理:
X1k=(X0k-X0k_mean)/X0k_std (2)
公式(2)表示X0的每一列都减去本列的均值,除以本列的标准差,得到新的矩阵X1。其中X0k代表矩阵X0第k列元素,X0k_mean代表矩阵X0第k列元素的均值,X0k_std代表矩阵X0第k列元素的标准差,X1k代表矩阵X1第k列元素, k=1,2,…m。
步骤S203:为了提取样本矩阵中更多的信息,对矩阵X1进行扩维,将X1的大小变为(m,nT+1,1),X1=[x11,x12,…,x1m],其中
Figure BDA0002902932220000092
的每一个元素都是一个Dx行1列的矩阵。其中,Dx=m+1,在这里,Dx=65。
步骤S204:采用全连接的前馈网络,且不使用激活函数,根据矩阵X1生成新的矩阵X2=[x21,x22,…,x2m]:
x2m=x1mω+b (3)
其中,ω∈R1×N,ω和b是全连接层的可训练参数。b是偏置参数,在这里设为0。
步骤S205:对矩阵X2按照第一位置编码方式进行位置编码,得到新的矩阵
Figure BDA0002902932220000101
所述第一位置编码方式如公式(4)所示:
Figure 4
其中,
Figure BDA0002902932220000103
pos是一个在[0,Dx]内的序列数组,j是一个在[0,N/2]范围内的序列数组,T1 是一个缩放因子,一般取T1 =10000,用来调节相邻元素的位置差异。当T1 比较大的时候,相邻元素的位置编码之间的差异会更小。
将经全连接层投影后的
Figure BDA0002902932220000104
与该位置信息求和。对于单个样本
Figure BDA0002902932220000105
Figure BDA0002902932220000106
得到X3
步骤S206:将矩阵X3送入由num(本实施例中,num=2)层多头自注意力层堆叠而成的网络层,并在所述网络层引入第二位置编码方式,然后按照第二位置编码方式对所述网络层的数据进行位置编码;
具体地,每层所述多头自注意力层包括第一子层和第二子层,第一子层为 multi-head attention机制层,第二子层为位置完全连接的前馈网络;
第一子层和第二子层后端均采用一个残差连接,然后进行层标准化。如此,可以抑制网络退化和梯度弥散问题。具体而言,假设x是每个子层的输入,每个子层的输出则是LayerNorm(x+Sublayer(x)),其中Sublayer(x)是由子层本身实现的函数。为了方便这些残差连接的使用,模型中的所有子层以及嵌入层产生的输出维度都为N。
具体地,第一子层的输出Xsublayer1可以表示为: Xsublayer1=LayerNorm(MultiHead(H))+X3;第二子层的输出Xsublayer2可以表示为: Xsublayer2=LayerNorm(FFN(Xsublayer1))+Xsublayer1。其中FFN代表第二子层中的2层前馈神经网络,LayerNorm代表层标准化。
作为一种可实施方式,所述第一子层(Sublayer1)对矩阵X3的处理过程包括:
步骤B1:按照公式(5)对输入向量X3投影到三个不同的向量空间Q、K和V 中:
Figure BDA0002902932220000111
其中,Wq、Wk和Wv表示第一子层的可训练参数;
步骤B2:根据多头注意力层的头数M(本实施例中,M=8)按照公式(6) 对向量空间Q、K和V进行分头操作,并按照公式(7)交换维度次序:
Figure BDA0002902932220000112
Figure BDA0002902932220000113
公式(6)和公式(7)中,i=1,2,...,M;
步骤B3:如图3所示,按照公式(8)对各个Qi、Ki和Vi进行线性加权运算,得到对应的运算结果Hi;或者,按照公式(9)对各个Qi、Ki和Vi进行扩大点积运算,得到对应的运算结果Hi
Figure BDA0002902932220000114
Figure BDA0002902932220000115
Figure BDA0002902932220000116
其中,i=1,2,...,M。
Figure BDA0002902932220000117
μi和η是第一子层的可训练参数矩阵,
Figure BDA0002902932220000118
Figure BDA0002902932220000119
公式(8)和公式(9)中的PE*表示公式(10)所示的第二位置编码方式,pos是一个在[0,Dx]内的序列,dmodel=N;在处理长距离相关信息的问题中,当前时刻的信息有时不仅与前面的信息有关,还可能和未来的信息有关。双向LSTM可以从信息的两侧有区别的收集信息,但在多头注意力网络中,区分信息的方向却并不容易。在构建注意力权重矩阵过程中,又引入了如下一类位置编码方式:
Figure 5
公式(10)中的pos,Dx,N,j与公式(4)相同。
在普通多头注意力机制的实际应用中,缩放点积注意力的权重为:
Figure BDA0002902932220000122
该权重公式中,
Figure BDA0002902932220000123
Figure BDA0002902932220000124
相当于用Qi,Ki描述的一个二元分布,weights矩阵中的各个元素反映了Dx个元素之间的相互关系。在多头注意力模型中,为了保证模型训练的稳定性,要使用残差结构,即实现LayerNorm(X+H),这就必须保证输入数据X与输出数据H的维度保持相同,即
Figure BDA0002902932220000125
又由于
Figure BDA0002902932220000126
一般的有N/M<<Dx。Qi,Ki的参数总量2×Dx×(N/M)小于weights的参数总量Dx×Dx,这就造成了Qi,Ki对weights建模的低秩瓶颈。而本发明实施例通过使用扩大点积和线性加权两种注意力机制,可以将Qi,Ki的参数总量增大为2×Dx×Dx,超过了weights矩阵的参数总量Dx×Dx,因此本实施例利用线性加权注意力和扩展点积注意力两种注意力方式可以解决注意力机制中的低秩瓶颈问题。
此外,在处理长距离信息的问题中,当前时刻的信息有时不仅与当前时刻之前的历史信息有关,还可能和当前时刻之后的未来信息有关。在多头注意力网络中,区分信息的方向却并不容易。而本发明实施例通过引入第二位置编码方式,如公式(1)所示,公式(11)中的pos,Dx,dmodel与公式(4)相同,由cos(-x)=cos(x), sin(-x)=-sin(x),可得:
Figure BDA0002902932220000131
由此可见,本发明实施例通过引入两种不同的位置编码方式,使用PE与PE*,注意力机制将可以较为容易的区分不同的信息方向。
步骤B4:将多个运算结果Hi按照公式(12)进行拼接组合得到多头注意力MultiHead(H):
MultiHead(H)=Concat[H1,...,HM]·W0 (12)
其中,W0∈RN×N是第一子层的可训练参数,
Figure BDA0002902932220000132
作为一种可实施方式,第二子层(Sublayer2)是一个简单的、位置完全连接的前馈神经网络。该子层包括2层前馈神经网络,这两层神经元个数是超参数,可以按需要指定。在这里,取第一层有2N个神经元,第二层有N个神经元。其中第二层使用激活函数relu。MultiHead(H)经过第二子层后大小不变。
步骤S207:将步骤S206中的运算结果送入第二前馈网络,且采用relu函数激活,再进行Flatten操作,将结果展平成二维,最后经过一个含有n_class个神经元的前馈网络,且采用Softmax函数激活,输出分类结果;其中,n_class表示故障模式的类型个数;由于前面已经预先设定了7种故障模式,因此此处n_class=7。
信号在神经网络的输出应该与目标值一致,评价这种一致性的函数叫做损失函数(Loss Function)。本模型采用的损失函数是交叉熵损失函数(Cross-entropy LossFunction)。假设信号在神经网络的softmax输出为Q(x),其目标值为P(x)。
则交叉熵损失函数为
Figure BDA0002902932220000133
训练的目标就是尽可能地降低Loss,Loss越低表明模型的输出值与真实值就越接近。为了更好地训练模型,本实施例中采用了Adam优化器来对模型进行优化。
步骤S208:重复步骤S204至步骤S207,直到故障分类精度达到要求,或迭代次数达到设定次数。
步骤S209:通过m个传感器对轴系设备进行采样,得到新的样本数据作为验证集,在所述验证集中加入轴系设备的周期性信息后进行标准化处理,将标准化处理后的样本数据输入步骤S208得到的模型,然后对模型性能进行评估,若模型性能达到设定要求,则模型的离线训练过程结束,可投入实际的生产过程中进行在线故障诊断。
本发明提出的故障诊断方法,分为离线建模训练和在线诊断两个阶段。离线建模训练阶段,利用所收集的历史趋势,报表等故障数据加入旋转设备的周期性信息后,对数据进行标准化处理,作为模型的输入。模型训练完毕之后,通过验证集对诊断结果进行评估,如其能达到预定的精度要求,将其放入现场,进行在线诊断。进行在线故障诊断时,从实际生产过程中采集待诊断样本,加入周期信息,进行数据标准化处理后作为模型输入,通过多头注意力模型诊断出故障的类型。
为了进一步验证本发明方法的有效性,本发明还提供有以下实验数据。
实验平台配置为Inter i7-9700k,16GB DDR4 RAM,NVIDIA GTX2080Ti,使用开源框架TensorFlow实现。实验采用小批量的训练方法和Adam梯度优化方法。设置批次大小为128,迭代训练30次。选取了常见的几种深度模型作为对照组,分别是文献1中的Abdeljaber的方法,(1D-CNN,第一层卷积核个数为16,大小为16,2层卷积,2层最大池化)。文献2JianboYu的方法(第一层卷积核个数为16,大小为16,包含两层残差结构的1D-CNN网络,每层残差结构包含三个卷积&BN层)。文献3Zhang的方法(2层双向LSTM,神经元个数分别为 128,32)。文献4Yue G的方法(CNN-LSTM网络,卷积层卷积核个数为16,卷积核大小为16,LSTM层有64个神经元)。使用F1分数为综合评价指标,公式如下:
Figure BDA0002902932220000141
其中,Precision和Recall分别是分类的精确度和召回率。
图4是在测试集上,七种深度学习网络训练30次学习曲线的对比。分别是使用正余弦编码的多头注意力网络(MHA),使用旋转设备周期性信息和两种位置编码的扩大点积注意力网络(Bi_P_EX-MHA),使用旋转设备周期性信息和两种位置编码的线性加权点积注意力网络(Bi_P_L-MHA),长短期记忆神经网络(Zhang),一维卷积神经网络(Abdeljaber),两层残差结构的一维卷积网络(Jianbo Yu),卷积-长短期记忆神经网络(Yue G)学习曲线对比。
表1是9种模型在验证集的故障诊断结果。RandomForest为使用50颗树的随机森林,LR为线性回归模型。
表1 9种深度学习模型在验证集上的诊断效果
模型 精确度 召回率 F1分数
MHA 0.953 0.952 0.952
Bi_P_EX-MHA 0.982 0.982 0.982
Bi_P_L-MHA 0.980 0.980 0.980
Zhang 0.976 0.976 0.976
Abdeljaber 0.842 0.826 0.819
Jianbo Yu 0.946 0.944 0.943
Yue G 0.973 0.973 0.973
RandomForest 0.684 0.683 0.682
LR 0.828 0.829 0.824
从图4与表1结果可知,LSTM(Zhang,Yue G)网络擅长捕捉长距离信息,在故障诊断方面可以取得很高的准确率。但LSTM是一种串行模型,由于其当前计算依赖于上一时刻的计算结果,它必须逐个单元计算,这严重阻碍了GPU并行性的充分发挥。MHA网络在改进位置编码前,准确率不如LSTM网络。 Bi_P_EX-MHA与Bi_P_L-MHA改进了模型,加入了轴系设备的周期性信息,分类准确率大大提高了。CNN网络以及增加了网络深度的RES_CNN网络虽然提取特征能力也很强,但不够稳定。其原因是其特征提取能力受制于卷积核的大小,虽然增加网络深度可以提高其捕捉特征的能力,但是其捕捉是基于随机搜索,缺乏指导性,当其未捕捉到长距离相关信息时,分类准确率会下降。两种常用机器学习模型随机森林和线性回归在分类精度上总体不如深度模型。
下面讨论增加周期性信息,以及使用扩大点积和线性加权注意力对模型的影响。
表2五种多头注意力模型在验证集上的诊断效果
模型 精确度 召回率 F1分数
MHA 0.953 0.952 0.952
EX-MHA 0.978 0.978 0.978
L-MHA 0.978 0.978 0.978
Periodic_EX-MHA 0.982 0.982 0.982
Periodic_L-MHA 0.980 0.980 0.980
图5与表2中,MHA为正常的多头注意力网络,Ex-MHA为未使用周期信息的扩大点积多头注意力网络,Line-MHA为未使用周期信息的线性加权多头注意力网络,Periodic_EX-MHA为使用旋转设备周期性信息的扩大点积多头注意力网络,Periodic_L-MHA为使用旋转设备周期性信息的线性加权多头注意力网络。从图5与表2结果可知,使用扩大点积与线性加权多头注意力可以改善多头注意力的低秩瓶颈问题,从而提高分类精度。使用旋转设备的周期性信息可以进一步提高多头注意力网络的分类精度。
下面讨论使用双向位置编码对模型的影响。图6为双向周期-扩大点积注意力(Bi_P_EX-MHA)与周期-扩大点积注意力(P_EX-MHA)两种方法在测试集上的学习曲线对比。其中Bi_P_EX-MHA的权重矩阵使用了公式(10)中的位置编码,P_EX-MHA没有使用公式(10)的位置编码。
可以看出,使用公式(10)后的Bi_P_EX-MHA能有更快的收敛速度和更高的精确率。
Bi_P_EX-MHA与Bi_P_L-MHA的训练时间的比较如下表。可以看出,线性加权注意力机制缩减了计算复杂度,其训练速度比扩大点积注意力快。
表3两种多头注意力模型训练时间的比较
模型 训练次数 每次训练所需时间 总训练时间
Bi_P_EX-MHA 30 17s 510s
Bi_P_L-MHA 30 19s 590s
图7为在把3200个验证集样本带入Bi_P_L-MHA得到的混淆矩阵。可以看到,在7种状态的故障诊断上,改进后的多头注意力模型在验证集上的平均准确率达到了98%以上。
表4 Bi_P_L-MHA模型在验证集的混淆矩阵参数
故障类型 精确度 召回率 F1分数
bph1 0.9689 0.9428 0.9557
bph3 0.9991 0.9950 0.9970
bph5 0.9455 0.9700 0.9576
bph7 1.0000 1.0000 1.0000
jzsd 0.9956 0.9834 0.9895
fjdy 0.9905 0.9756 0.9830
zc 0.9646 0.9950 0.9796
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.基于多头注意力及轴系设备周期性的故障诊断方法,其特征在于,包括:
步骤1:采集轴系设备若干个周期的待诊断样本,在所述待诊断样本中加入轴系设备的周期性信息后进行标准化处理;
步骤2:将标准化处理后的样本数据作为多头注意力故障诊断模型的输入,得到故障诊断结果;
其中,所述多头注意力故障诊断模型的离线训练过程包括以下步骤:
步骤A1:通过m个传感器对轴系设备进行nT次独立采样,得到轴系设备的历史数据矩阵X0,并在矩阵X0中加入轴系设备的周期信息;所述历史数据矩阵X0的每一行代表由m个传感器在同一时刻下采集到的测量数据组成的一个样本,每一列代表一个传感器在不同时刻下采集到的nT个测量数据,T为轴系设备旋转一周所采集的样本个数;m和n均为正整数;
步骤A2:对加入轴系设备的周期信息后的历史数据矩阵X0进行标准化处理,得到标准化处理后的矩阵X1
步骤A3:采用第一前馈网络,且不使用激活函数,根据矩阵X1生成新的矩阵
Figure FDA0003275613580000011
其中,所述第一前馈网络为全连接的前馈网络,N表示第一前馈网络的神经元个数,Dx=m+1;
步骤A4:对矩阵X2按照第一位置编码方式进行位置编码,得到新的矩阵
Figure FDA0003275613580000012
步骤A5:将矩阵X3送入由num层多头自注意力层堆叠而成的网络层,并在所述网络层引入第二位置编码方式,然后按照第二位置编码方式对所述网络层的数据进行位置编码;具体包括:
按照公式(8)对各个Qi、Ki和Vi进行线性加权运算,得到对应的运算结果Hi;或者,按照公式(9)对各个Qi、Ki和Vi进行扩大点积运算,得到对应的运算结果Hi
Figure FDA0003275613580000013
Figure FDA0003275613580000021
Figure FDA0003275613580000022
其中,Qi、Ki和Vi表示多头注意力层对矩阵X3进行投影、分头处理后得到的数据,i=1,2,...,M,M为多头注意力层的头数;
Figure FDA0003275613580000023
μi和η是多头自注意力层的可训练参数矩阵,
Figure FDA0003275613580000024
公式(8)和公式(9)中的PE*表示公式(10)所示的第二位置编码方式;pos是一个在[0,Dx]内的序列数组,j是一个在[0,N/2]范围内的序列数组,T1是缩放因子;
步骤A6:将步骤A5中的运算结果送入第二前馈网络,且采用relu函数激活,再进行Flatten操作,将结果展平成二维,最后经过一个含有n_class个神经元的前馈网络,且采用Softmax函数激活,输出分类结果;其中,n_class表示故障模式的类型个数;
步骤A7:重复步骤A3到步骤A6,直到故障分类精度达到要求,或迭代次数达到设定次数。
2.根据权利要求1所述的方法,其特征在于,步骤A2中,对所述历史数据矩阵X0按照公式(2)进行标准化处理:
X1k=(X0k-X0k_mean)/X0k_std (2)
其中,X1k表示矩阵X1的第k列元素,X0k表示矩阵X0的第k列元素,X0k_mean表示第k列元素的均值,X0k_std表示第k列元素的标准差,k=1,2,…m。
3.根据权利要求2所述的方法,其特征在于,步骤A2中,还包括对矩阵X1进行扩维,将矩阵X1的大小变为(m,nT+1,1),具体包括:
X1=[x11,x12,…,x1m],其中
Figure FDA0003275613580000025
的每一个元素都是一个Dx行1列的矩阵。
4.根据权利要求3所述的方法,其特征在于,步骤A3中,按照公式(3)根据矩阵X1生成新的矩阵X2=[x21,x22,…,x2m]:
x2m=x1mω+b (3)
其中,ω∈R1×N,ω和b是全连接层的可训练参数。
5.根据权要求1所述的方法,其特征在于,步骤A4中,所述第一位置编码方式如公式(4)所示:
Figure FDA0003275613580000031
其中,
Figure FDA0003275613580000032
pos是一个在[0,Dx]内的序列数组,j是一个在[0,N/2]范围内的序列数组,T1是缩放因子。
6.根据权利要求1所述的方法,其特征在于,步骤A5中,每层所述多头自注意力层包括第一子层和第二子层,第一子层为multi-head attention机制层,第二子层为位置完全连接的前馈网络;第一子层和第二子层后端均采用一个残差连接,然后进行层标准化。
7.根据权利要求6所述的方法,其特征在于,所述第一子层对矩阵X3的处理过程包括:
步骤B1:按照公式(5)对输入向量X3投影到三个不同的向量空间Q、K和V中:
Figure FDA0003275613580000033
其中,Wq、Wk和Wv表示第一子层的可训练参数;
步骤B2:根据多头注意力层的头数M按照公式(6)对向量空间Q、K和V进行分头操作,并按照公式(7)交换维度次序:
Figure FDA0003275613580000034
Figure FDA0003275613580000041
其中,i=1,2,...,M;
步骤B3:按照公式(8)对各个Qi、Ki和Vi进行线性加权运算,得到对应的运算结果Hi;或者,按照公式(9)对各个Qi、Ki和Vi进行扩大点积运算,得到对应的运算结果Hi
步骤B4:将多个运算结果Hi按照公式(12)进行拼接组合得到多头注意力MultiHead(H):
MultiHead(H)=Concat[H1,...,HM]·W0 (12)
其中,W0∈RN×N是第一子层的可训练参数,
Figure FDA0003275613580000042
8.根据权利要求1所述的方法,其特征在于,所述多头注意力故障诊断模型的离线训练过程还包括:
步骤A8:通过m个传感器对轴系设备进行采样,得到新的样本数据作为验证集,在所述验证集中加入轴系设备的周期性信息后进行标准化处理,将标准化处理后的样本数据输入步骤A7得到的模型,然后对模型性能进行评估,若模型性能达到设定要求,则模型的离线训练过程结束。
9.根据权利要求1所述的方法,其特征在于,所述多头注意力故障诊断模型的离线训练过程中,采用交叉熵损失函数作为损失函数。
CN202110062687.1A 2021-01-18 2021-01-18 基于多头注意力及轴系设备周期性的故障诊断方法 Active CN112906739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110062687.1A CN112906739B (zh) 2021-01-18 2021-01-18 基于多头注意力及轴系设备周期性的故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110062687.1A CN112906739B (zh) 2021-01-18 2021-01-18 基于多头注意力及轴系设备周期性的故障诊断方法

Publications (2)

Publication Number Publication Date
CN112906739A CN112906739A (zh) 2021-06-04
CN112906739B true CN112906739B (zh) 2021-11-05

Family

ID=76115016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110062687.1A Active CN112906739B (zh) 2021-01-18 2021-01-18 基于多头注意力及轴系设备周期性的故障诊断方法

Country Status (1)

Country Link
CN (1) CN112906739B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113865868B (zh) * 2021-08-24 2023-12-22 东南大学 基于时频域表达的滚动轴承故障诊断方法
CN114330431A (zh) * 2021-12-23 2022-04-12 天津工业大学 基于动态自注意力的托辊故障诊断方法及相关设备
CN114993677B (zh) * 2022-05-11 2023-05-02 山东大学 不平衡小样本数据的滚动轴承故障诊断方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160245686A1 (en) * 2015-02-23 2016-08-25 Biplab Pal Fault detection in rotor driven equipment using rotational invariant transform of sub-sampled 3-axis vibrational data
CN105528504B (zh) * 2016-03-01 2018-09-04 哈尔滨理工大学 基于cfoa-mkhsvm的滚动轴承健康状态评估方法
CN110579354B (zh) * 2019-10-16 2020-11-06 西安交通大学 一种基于卷积神经网络的轴承检测方法
CN111721535B (zh) * 2020-06-23 2021-11-30 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法

Also Published As

Publication number Publication date
CN112906739A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906739B (zh) 基于多头注意力及轴系设备周期性的故障诊断方法
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
Chen et al. Multi-layer neural network with deep belief network for gearbox fault diagnosis
Lu et al. Dominant feature selection for the fault diagnosis of rotary machines using modified genetic algorithm and empirical mode decomposition
CN111914883B (zh) 一种基于深度融合网络的主轴轴承状态评估方法及装置
CN108398268B (zh) 一种轴承性能退化评估方法
CN111504676A (zh) 基于多源监控数据融合的设备故障诊断方法、装置及系统
CN114723285B (zh) 一种电网设备安全性评估预测方法
Nath et al. Structural rotor fault diagnosis using attention-based sensor fusion and transformers
CN114297947B (zh) 基于深度学习网络的数据驱动风电系统孪生方法及系统
Nath et al. Improved structural rotor fault diagnosis using multi-sensor fuzzy recurrence plots and classifier fusion
Xu et al. Hierarchical multiscale dense networks for intelligent fault diagnosis of electromechanical systems
CN111709577B (zh) 基于长程相关性gan-lstm的rul预测方法
CN114548199A (zh) 一种基于深度迁移网络的多传感器数据融合方法
CN112949402A (zh) 极小故障样本量下行星齿轮箱故障诊断方法
CN115859077A (zh) 一种变工况下多特征融合的电机小样本故障诊断方法
CN115046766A (zh) 基于二维灰度图像自适应子空间的小样本轴承故障诊断方法
Sadoughi et al. A deep learning approach for failure prognostics of rolling element bearings
CN115628910A (zh) 一种基于迁移学习的嵌入式轴承故障诊断装置及设备
Jung et al. Fault Diagnosis of Inter-turn Short Circuit in Permanent Magnet Synchronous Motors with Current Signal Imaging and Semi-Supervised Learning
CN112836570B (zh) 一种利用高斯噪声的设备异常检测方法
CN115730255A (zh) 基于迁移学习和多源信息融合的电机故障诊断分析方法
CN114861349A (zh) 一种基于模型迁移和维纳过程的滚动轴承rul预测方法
CN114048762A (zh) 双注意力引导的旋转机械健康评估方法
Jung et al. Fault diagnosis of inter-turn short circuit in permanent magnet synchronous motors with current signal imaging and unsupervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant