CN116994041A

CN116994041A - 一种基于滑窗处理与注意力机制的故障诊断方法及装置

Info

Publication number: CN116994041A
Application number: CN202310863439.6A
Authority: CN
Inventors: 黄玉彪; 张佳庆; 朱太云; 王刘芳; 刘睿; 过羿; 尚峰举; 孙韬; 章彬彬; 付贤玲; 汪书苹; 何旸; 何灵欣
Original assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-11-03

Abstract

本发明公开了一种基于滑窗处理与注意力机制的故障诊断方法及装置，所述方法包括：构建故障诊断模型，将多传感器数据输入故障诊断模型，基于滑窗处理从属性维和时序维对多维时序数据进行融合以获得输出特征图；将输出特征图分别输入到多种不同的注意力机制模块中；训练故障诊断模型，得到训练好的故障诊断模型；将实时采集的多传感器数据输入训练好的故障诊断模型，进行故障诊断；本发明的优点在于：故障诊断结果较为准确。

Description

一种基于滑窗处理与注意力机制的故障诊断方法及装置

技术领域

本发明涉及工业系统/机器的故障诊断技术领域，具体涉及一种基于滑窗处理与注意力机制的故障诊断方法及装置。

背景技术

故障诊断是保障工业活动稳定运行的一项重要技术。近几年来，随着传感器设备在工业场景的广泛部署，工业系统/机器的多源运行数据能够被快速且方便地收集，这促进了数据驱动的故障诊断方法在学术界和工业界的研究和开发。特别地，相比于基于统计分析、浅层机器学习等传统数据驱动方法，基于深度学习的方法极大地提高了故障诊断的性能。

中国专利公开号CN112861443A公开了一种融入先验知识的深度学习故障诊断方法，其通过先验知识的融入，一方面使得深度学习技术能够有针对性地从数据中提取特征，从而使其适用于小数量的故障诊断，另一方面使得深度学习的可解释性增高，从而使其适用于可靠性要求较高的故障诊断。但是上述深度学习方法还存在以下两个技术问题：

1、多源数据融合问题：多传感器收集到的多源数据为深度学习方法的训练提供了数据基础。如何有效融合多源数据中的信息，为深度学习方法训练提供充足且有效的大数据来源；是故障诊断领域面临的一个重要技术问题。

2、多源数据挖掘问题：与单传感器数据相比，融合多传感器的多源数据蕴含着更多维的依赖信息。现有的深度学习方法难以有效挖掘这些多维依赖信息，因此进一步改进现有深度学习方法实现多源数据挖掘是故障诊断领域面临的另一个重要技术问题。

发明内容

本发明所要解决的技术问题在于现有技术基于深度学习的故障诊断方法难以实现多源数据融合以及多源数据挖掘，从而提取的特征不够完善不够准确，导致最终故障诊断结果不够精准。

本发明通过以下技术手段解决上述技术问题的：一种基于滑窗处理与注意力机制的故障诊断方法，所述方法包括：

步骤a：构建故障诊断模型，将多传感器数据输入故障诊断模型，基于滑窗处理从属性维和时序维对多维时序数据进行融合以获得输出特征图；将输出特征图分别输入到多种不同的注意力机制模块中，不同注意力机制模块的权重向量对输出特征图加权得到最终的特征图；

步骤b：调整故障诊断模型的参数，训练故障诊断模型，直到损失函数最小或者达到预设训练轮次时停止训练，得到训练好的故障诊断模型；

步骤c：将实时采集的多传感器数据输入训练好的故障诊断模型，进行故障诊断。

进一步地，所述步骤a包括：

所述故障诊断模型包括第一卷积模块、通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块及第二卷积模块，所述第一卷积模块接收多传感器数据，第一卷积模块的输出形成输出特征图，输出特征图分别输入到通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块及第二卷积模块中，通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块分别对第二卷积模块的输出进行加权融合，形成最终的特征图。

更进一步地，所述故障诊断模型还包括第二属性注意力机制模块和第二时间注意力机制模块，第二属性注意力机制模块、第二时间注意力机制模块、第一卷积模块分别接收多传感器数据，第二属性注意力机制模块、第二时间注意力机制模块分别对第一卷积模块的输出进行加权融合，形成输出特征图。

更进一步地，所述第一卷积模块接收多传感器数据之前还包括：

多传感器数据是M维时序数据，对多传感器数据进行滑窗处理，将M维时序数据转换为类图片数据集，类图片数据集作为故障诊断模型的输入量。

更进一步地，所述故障诊断模型中不同注意力机制模块的权重向量的获取方式为：

将输入到不同注意力机制模块的输出特征图进行展平，得到一个一维向量X，通过公式y＝s(AX+b)进行非线性变换，其中，y是非线性变换后的向量，A是可学习参数，b是偏置项，s()是任意一种激活函数；

通过公式W＝sigmoid(y)获取权重向量，其中，sigmoid()为归一化函数。

更进一步地，所述通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块分别对第二卷积模块的输出进行加权融合，包括：

通道注意力机制模块、第一属性注意力机制模块及第一时间注意力机制模块的权重向量分别为W₁、W₂、W₃，通过公式对第二卷积模块的输出进行加权融合，其中，F_ou表示第二卷积模块的输出，/>代表属性方向的逐像素相乘，/>代表时序方向的逐像素相乘，/>代表通道方向的逐像素相乘。

进一步地，所述步骤b中采用故障诊断模型预测的故障概率与实际故障概率之差平方的期望值作为损失函数，其中，实际故障概率在发生故障的时候值为1，不发生故障的时候值为0。

进一步地，所述步骤b中采用Adam学习算法训练故障诊断模型。

本发明还提供一种基于滑窗处理与注意力机制的故障诊断系统，所述系统包括：

模型构建部，用于构建故障诊断模型，将多传感器数据输入故障诊断模型，基于滑窗处理从属性维和时序维对多维时序数据进行融合以获得输出特征图；将输出特征图分别输入到多种不同的注意力机制模块中，不同注意力机制模块的权重向量对输出特征图加权得到最终的特征图；

模型训练部，用于调整故障诊断模型的参数，训练故障诊断模型，直到损失函数最小或者达到预设训练轮次时停止训练，得到训练好的故障诊断模型；

故障诊断部，用于将实时采集的多传感器数据输入训练好的故障诊断模型，进行故障诊断。

进一步地，所述模型构建部还用于：

进一步地，所述模型训练部中采用故障诊断模型预测的故障概率与实际故障概率之差平方的期望值作为损失函数，其中，实际故障概率在发生故障的时候值为1，不发生故障的时候值为0。

进一步地，所述模型训练部中采用Adam学习算法训练故障诊断模型。

本发明的优点在于：

(1)本发明由于多传感器数据是多维度的，通过滑窗处理将原始数据通过属性维和时间维的融合转化为输出特征图，实现了多维度的数据的融合，也即实现多源数据融合，使得提取的特征较为完善，该输出特征图作为后续注意力机制模块的输入，通过多种不同的注意力机制模块实现多传感器的多维依赖关系的挖掘，利用挖掘的多维信息对输出特征图加权得到最终的特征图，使得特征提取的结果考虑多维依赖关系，较为准确，从而最终故障诊断结果较为精准。

(2)本发明为了挖掘多传感器数据中的属性依赖信息、时序依赖信息和通道依赖信息，分别设计了属性注意力机制、时间注意力机制、和通道注意力机制，通过本发明提出的模型，能够很好地融合多源数据，并挖掘多源数据中的丰富信息，能够进一步提升现有基于深度学习故障诊断方法的性能和效率。

附图说明

图1为本发明实施例所公开的一种基于滑窗处理与注意力机制的故障诊断方法中滑窗处理过程示意图；

图2为本发明实施例所公开的一种基于滑窗处理与注意力机制的故障诊断方法中故障诊断模型架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，一种基于滑窗处理与注意力机制的故障诊断方法，所述方法包括：

S1：构建故障诊断模型，将多传感器数据输入故障诊断模型，基于滑窗处理从属性维和时序维对多维时序数据进行融合以获得输出特征图；将输出特征图分别输入到多种不同的注意力机制模块中，不同注意力机制模块的权重向量对输出特征图加权得到最终的特征图；具体过程如下：

S101、滑窗处理

多传感器数据是M维时序数据，给定M维时序数据S＝[s₁,…,s_M]，其中是一个周期为T的一维时序数据，按以下形式对S进行排列获得矩阵形式的原始数据D

如图1所示，定义一个M*d的窗口，其中0<d<T，并指定该窗口滑动的步长为0<λ<T。在原始数据D上从上至下依次按照步长λ移动窗口，将每次窗口所覆盖的数据记为X_n，并取窗口所覆盖数据最下面一行所对应数据的标签作为X_n的标签y_n。通过这种形式，最终能将原始数据(D,Y)转化为类图片数据集类图片数据集作为故障诊断模型的输入量。

滑窗处理的方法属于现有技术，采用的是中国专利公开号CN109814523A公开的基于CNN-LSTM深度学习方法及多属性时序数据的故障诊断方法中的滑窗处理步骤，在此不做赘述。

S102、模型构建

如图2所示，为了挖掘多源数据中的属性依赖、时序依赖、和通道依赖信息，本发明提出了三种注意力机制，分别为属性注意力机制、时间注意力机制和通道注意力机制。

(1)属性注意力机制

给定一个特征图F＝[F₁,…,F_C]，其中F_c∈R^d×M，c＝1,…,C，属性注意力机制学习一个权重向量W₁＝[w₁,…,w_M]，其中w_m，m＝1,…,M，表示属性m在故障诊断中的重要性程度。

(2)时间注意力机制

给定一个特征图F＝[F₁,…,F_C]，其中F_c∈R^d×M，c＝1,…,C，时间注意力机制学习一个权重向量W₂＝[w₁,…,w_d]，其中w_δ，δ＝1,…,d，表示时刻δ在故障诊断中的重要性程度。

(3)通道注意力机制

给定一个特征图F＝[F₁,…,F_C]，其中F_c∈R^d×M，c＝1,…,C，通道注意力机制学习一个权重向量W₃＝[w₁,…,w_C]，其中w_c，c＝1,…,C，表示通道c在故障诊断中的重要性程度。

这三类注意力的学习模型是任意的。本实施例中采用一个全连接层进行学习。学习的过程是与整个故障诊断模型一起进行，具体是在步骤S2中通过调整可学习参数、偏置项、卷积神经网络的学习率等进行模型训练，训练完成以后三种注意力机制中各个参数以及权重向量被固定。三种注意力机制的权重向量的计算公式相同，只是训练过程会导致具体的参数不同，从而得到的权重向量有所不同，权重向量的计算过程如下：

首先，将输入到不同注意力机制模块的输出特征图进行展平，得到一个一维向量X。然后，采用下式进行非线性变换，

y＝s(AX+b)

其中，y是非线性变换后的向量，A是可学习参数，b是偏置项，s()是任意一种激活函数，比如可以是ReLU激活函数。最终的权重向量W可通过归一化sigmoid函数获得

W＝sigmoid(y)

继续参阅图2，所述故障诊断模型包括第一卷积模块3、通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7，第一卷积模块3接收多传感器数据，第一卷积模块3的输出形成输出特征图，输出特征图分别输入到通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7中，其中，输出特征图记为将输出特征图F_in输入第二卷积模块7得到通道注意力机制模块4、第一属性注意力机制模块5及第一时间注意力机制模块6的权重向量分别为W₁、W₂、W₃，通过公式/>对第二卷积模块7的输出进行加权融合，其中，F_ou表示第二卷积模块7的输出，/>代表属性方向的逐像素相乘，代表时序方向的逐像素相乘，/>代表通道方向的逐像素相乘。需要说明的是，通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6可集成到任何传统卷积神经网络的任意层，在本实施例中，通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6可集成在第一卷积模块3或第二卷积模块7的任意层，如图2只是给出了一种实现方式，将其集成在了第二卷积模块7。由于输入层只有一个通道，通道注意力机制无法应用，因此，在第一卷积模块3集成上述三种注意力机制的时候只能集成第一属性注意力机制模块5、第一时间注意力机制模块6，因此，第一卷积模块3的输出结果并没有加权融合通道注意力机制的信息。

通过堆叠上述操作构建一个故障诊断模型。在该模型中，三种注意力机制的应用能够挖掘多源数据中的属性依赖、时序依赖和通道依赖信息。

还需要说明的是，本发明的注意力机制模块、卷积模块均可以采用现有技术，本发明的主要改进点在于各模块之间数据的融合，并不在于每个模块的具体改进，因为各模块的具体结构在此不做赘述，可以采用现有任何常规的注意力机制模块以及卷积模块，只要维度符合本发明图2所标注的维度即可，例如，图2中类似于1*M1*1的表述就是相应模块的维度。图2中表示Attribute attention表示属性注意力机制，Time attention表示时间注意力机制，Convolution表示卷积，Channel attention表示通道注意力机制。

S2：调整故障诊断模型的参数，例如上述三种注意力机制的可学习参数A、偏置项b、第一卷积模块的相关参数以及第二卷积模块的相关参数等，训练故障诊断模型，直到损失函数最小或者达到预设训练轮次时停止训练，得到训练好的故障诊断模型。

需要说明的是，本发明主要改进在于特征提取，构建的故障诊断模型的主要架构也在于特征提取，实际应用中，故障诊断模型还包括分类器，得出最终的特征图以后，将特征图输入到分类器进行分类，从而得出预测的故障概率。

本实施例中对从滑窗处理获得的数据集按一定比例进行训练集和测试机划分。采用故障诊断模型预测的故障概率与实际故障概率之差平方的期望值(也即故障诊断模型预测的故障概率与实际故障概率的均方误差)作为损失函数，其中，实际故障概率在发生故障的时候值为1，不发生故障的时候值为0。采用Adam学习算法训练故障诊断模型。进过特定数量的轮次之后，所构建的模型便能很好的拟合训练数据集中的数据。最后，在测试数据集上采用特定的性能指标对训练好的模型进行测试。

S3：将实时采集的多传感器数据输入训练好的故障诊断模型，进行故障诊断。

通过以上技术方案，本发明基于注意力机制提出了一种挖掘多传感器数据中依赖信息的深度学习模型。为了挖掘多传感器数据中的属性依赖信息、时序依赖信息和通道依赖信息，分别设计了属性注意力机制、时间注意力机制、和通道注意力机制。通过本发明提出的模型，能够很好地融合多源数据，并挖掘多源数据中的丰富信息，能够进一步提升现有基于深度学习故障诊断方法的性能和效率。

实施例2

本发明实施例2与实施例1的区别仅在于故障诊断模型的架构略有不同，实施例1已经说明了通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6可以集成在卷积神经网络的任意层，因此实际应用中还存在这三种注意力机制分别集成在第一卷积模块3和第二卷积模块7的情况，实现多级注意力机制，先经过一次注意力机制融合多源信息并挖掘依赖关系，再经过一次注意力机制再次挖掘，进一步提升特征提取的准确性。具体的，如图2所示，所述故障诊断模型包括第二属性注意力机制模块1、第二时间注意力机制模块2、第一卷积模块3、通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7，所述第二属性注意力机制模块1、第二时间注意力机制模块2、第一卷积模块3分别接收多传感器数据，第二属性注意力机制模块1、第二时间注意力机制模块2分别对第一卷积模块3的输出进行加权融合，形成输出特征图，输出特征图分别输入到通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7中，其中，输出特征图记为将输出特征图F_in输入第二卷积模块7得到/>通道注意力机制模块4、第一属性注意力机制模块5及第一时间注意力机制模块6的权重向量分别为W₁、W₂、W₃，通过公式对第二卷积模块7的输出进行加权融合，其中，F_ou表示第二卷积模块7的输出，/>代表属性方向的逐像素相乘，/>代表时序方向的逐像素相乘，/>代表通道方向的逐像素相乘。第二属性注意力机制模块1、第二时间注意力机制模块2分别对第一卷积模块3的输出进行加权融合的方法与上述通道注意力机制模块4、第一属性注意力机制模块5及第一时间注意力机制模块6对第二卷积模块7的输出进行加权融合的方法相同，在此不做赘述。

实施例3

基于实施例1，本发明实施例3还提供一种基于滑窗处理与注意力机制的故障诊断系统，所述系统包括：

具体的，所述模型构建部还用于：

所述故障诊断模型包括第一卷积模块3、通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7，第一卷积模块3接收多传感器数据，第一卷积模块3的输出形成输出特征图，输出特征图分别输入到通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6及第二卷积模块7中，通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6分别对第二卷积模块7的输出进行加权融合，形成最终的特征图。

更具体的，所述故障诊断模型还包括第二属性注意力机制模块1、第二时间注意力机制模块2，所述第二属性注意力机制模块1、第二时间注意力机制模块2、第一卷积模块3分别接收多传感器数据，第二属性注意力机制模块1、第二时间注意力机制模块2分别对第一卷积模块3的输出进行加权融合，形成输出特征图。

更具体的，所述第一卷积模块3接收多传感器数据之前还包括：

更具体的，所述故障诊断模型中不同注意力机制模块的权重向量的获取方式为：

更具体的，所述通道注意力机制模块4、第一属性注意力机制模块5、第一时间注意力机制模块6分别对第二卷积模块7的输出进行加权融合，包括：

通道注意力机制模块4、第一属性注意力机制模块5及第一时间注意力机制模块6的权重向量分别为W₁、W₂、W₃，通过公式对第二卷积模块7的输出进行加权融合，其中，F_ou表示第二卷积模块7的输出，/>代表属性方向的逐像素相乘，/>代表时序方向的逐像素相乘，/>代表通道方向的逐像素相乘。

具体的，所述模型训练部中采用故障诊断模型预测的故障概率与实际故障概率之差平方的期望值作为损失函数，其中，实际故障概率在发生故障的时候值为1，不发生故障的时候值为0。

具体的，所述模型训练部中采用Adam学习算法训练故障诊断模型。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述步骤a包括：

3.根据权利要求2所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述故障诊断模型还包括第二属性注意力机制模块和第二时间注意力机制模块，第二属性注意力机制模块、第二时间注意力机制模块、第一卷积模块分别接收多传感器数据，第二属性注意力机制模块、第二时间注意力机制模块分别对第一卷积模块的输出进行加权融合，形成输出特征图。

4.根据权利要求2所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述第一卷积模块接收多传感器数据之前还包括：

5.根据权利要求2所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述故障诊断模型中不同注意力机制模块的权重向量的获取方式为：

6.根据权利要求2所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块分别对第二卷积模块的输出进行加权融合，包括：

7.根据权利要求1所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述步骤b中采用故障诊断模型预测的故障概率与实际故障概率之差平方的期望值作为损失函数，其中，实际故障概率在发生故障的时候值为1，不发生故障的时候值为0。

8.根据权利要求1所述的一种基于滑窗处理与注意力机制的故障诊断方法，其特征在于，所述步骤b中采用Adam学习算法训练故障诊断模型。

9.一种基于滑窗处理与注意力机制的故障诊断系统，其特征在于，所述系统包括：

10.根据权利要求9所述的一种基于滑窗处理与注意力机制的故障诊断系统，其特征在于，所述模型构建部还用于：

所述故障诊断模型包括第一卷积模块、通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块及第二卷积模块，所第一卷积模块接收多传感器数据，第二属性注意力机制模块、第二时间注意力机制模块分别对第一卷积模块的输出进行加权融合，形成输出特征图，输出特征图分别输入到通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块及第二卷积模块中，通道注意力机制模块、第一属性注意力机制模块、第一时间注意力机制模块分别对第二卷积模块的输出进行加权融合，形成最终的特征图。