CN115081514A - 一种数据不平衡情况下的工业设备故障识别方法 - Google Patents

一种数据不平衡情况下的工业设备故障识别方法 Download PDF

Info

Publication number
CN115081514A
CN115081514A CN202210546676.5A CN202210546676A CN115081514A CN 115081514 A CN115081514 A CN 115081514A CN 202210546676 A CN202210546676 A CN 202210546676A CN 115081514 A CN115081514 A CN 115081514A
Authority
CN
China
Prior art keywords
data
fault
industrial equipment
samples
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210546676.5A
Other languages
English (en)
Inventor
马延庆
高运兴
万斌
尚建华
韩增永
丁申
秦松
王辉
冉亮
许玉伟
张奇
柳晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority to CN202210546676.5A priority Critical patent/CN115081514A/zh
Publication of CN115081514A publication Critical patent/CN115081514A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供一种数据不平衡情况下的工业设备故障识别方法,采集工业设备运行过程中出现过的故障数据属性信息以及对应故障类别,并对采集数据进行预处理与特征选择;构建卷积神经网络与长短时记忆网络;通过SMOTE过采样技术合成工业设备的少数类故障数据,通过EasyEnsemble欠采样技术处理工业设备的多数类故障数据,得到均衡的故障数据集;通过历史故障数据信息进行训练,通过测试故障数据信息得到工业设备的故障识别结果。本发明对不同故障类别之间的数据不平衡情况,通过挖掘工业设备异常运行数据与故障类型之间的映射关系,对设备的故障进行精准诊断,提高了故障辨识的精度和准度,保证工业设备的稳定运行。

Description

一种数据不平衡情况下的工业设备故障识别方法
技术领域
本发明涉及工业设备运行监控技术领域,尤其涉及一种数据不平衡情况下的工业设备故障识别方法。
背景技术
工业设备是为各个工业企业中常用的装置,工业设备可以为工矿企业提供生产技术装备。工业设备可以应用的行业包括金属制品业、普通机械制造业、专用设备制造业、交通运输设备制造业、电气机械及器材制造业等等。工业设备涉及的行业较广。
工业设备的稳定运行是保证制造业稳定生产,并生产出符合质量要求的重要条件。当前对工业设备的运行监控是有效对工业设备故障进行监控的重要方式。
当前的工业设备故障监控过程无法对故障类别之间的数据不平衡情况进行处理,影响对工业设备故障的诊断,有时无法对故障数据结果进行有效识别,降低了故障输出结果的准确率,进而对制造业稳定生产造成影响,还影响产品质量。
发明内容
本发明提供一种对设备的故障进行精准诊断的数据不平衡情况下的工业设备故障识别方法,
方法包括:
步骤1:采集工业设备运行过程中出现过的故障数据属性信息以及对应故障类别,并对采集数据进行预处理与特征选择;
步骤2:构建卷积神经网络与长短时记忆网络,并将两种神经网络进行结合得到分类模型;
步骤3:通过SMOTE过采样技术合成工业设备的少数类故障数据,通过EasyEnsemble欠采样技术处理工业设备的多数类故障数据,得到均衡的故障数据集;
步骤4:通过历史故障数据信息进行训练,通过测试故障数据信息得到工业设备的故障识别结果。
进一步需要说明的是,步骤1具体包括:
步骤1.1:对于连续数据缺失的样本,采用与其故障类别相同样本的类数据平均值进行填充;
步骤1.2:对于分类数据缺失的样本,采用与其故障类别相同的该类数据的众数进行填充;
步骤1.3:将工业设备所属厂家、设备型号、检定故障原因分类数据处理;
步骤1.4:将故障日期与安装日期作差,得到可替代两者的使用时长;
步骤1.5:对检定故障原因缺失的样本进行删除。
步骤1.6:采用标准化公式对数据进行预处理;
Figure BDA0003652895120000021
式中:x′为标准化后的数据,x为某一特征原始数据样本,
Figure BDA0003652895120000022
为样本均值,σ(x)为样本标准差;
步骤1.7:通过距离相关系数对工业设备的输入特征进行选择,过滤掉低相关系数特征,实现输入特征降维并以降维特征作为模型的输入。
进一步需要说明的是,步骤2具体包括以下过程:
步骤2.1:构建卷积神经网络;
步骤2.2:构建长短时记忆网络;
LSTM网络在循环神经网络的基础上增加了一个状态单元c,并通过遗忘门、输入门、输出门控制LSTM网络每个时刻的信息状态;
LSTM网络在t时刻有3个输入:
当前时刻网络的输入值xt,即经过CNN神经网络特征提取后的工业设备故障数据信息;
上一时刻LSTM网络隐含层的输出值ht-1;上一时刻的单元状态ct-1
LSTM网络在t时刻有2个输出:当前时刻隐含层的输出值ht和单元状态ct
遗忘门决定上一时刻的单元状态ct-1保留到当前单元状态ct的信息量;
输入门决定当前时刻网络的输入xt保存到当前单元状态ct的信息量;
输出门决定当前单元状态ct作为当前时刻隐含层输出ht的信息量;
步骤2.3:将两种神经网络进行结合,将输入数据通过CNN进行特征提取与参数降维,输入到LSTM网络中得到最终分类模型。
进一步需要说明的是,步骤2.1还包括:
卷积神经网络采用局部连接和权值共享的方式,从原始数据中通过卷积层和池化层交替使用来获取有效表征,自动提取数据的局部特征,为LSTM网络提供输入;
卷积神经网络包括:卷积层、池化层和全连接层;通过卷积层和池化层对工业设备故障数据进行特征提取与参数降维,实现特征提取的封装。
遗忘门、输入门以及输出门之间的通过如下公式进行门控:
ft=(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure BDA0003652895120000031
Figure BDA0003652895120000032
ot=σ(Wo[ht-1,xt]+bo)
Figure BDA0003652895120000033
式中:ft、it、ot分别为遗忘门、输入门、输出门;
bf、bi、bc、bo分别为对应单元的偏置项;
Wf、Wi、Wc、Wo分别为对应单元的权重矩阵;
Figure BDA0003652895120000034
表示元素按位相乘;
Figure BDA0003652895120000035
为候选单元状态;σ表示sigmoid激活函数。
进一步需要说明的是,步骤3具体包括以下过程:
步骤3.1:具有n维特征的数据集中两个样本分别为Xi=(xi1,xi2,…,xin),Xj=(xj1,xj2,…,xjn),样本之间的欧几里得距离为:
Figure BDA0003652895120000041
式中:xil和xjl分别为第i、j个样本的第l个特征变量值;
步骤3.2:选择要进行过采样的类数据集,并输入参数:
输入样本个数T;需要的采样率N为常取100的整数倍;
最邻近样本个数k;
步骤3.3:计算样本集中一个小样本与其他样本之间的欧氏距离,选取k个最邻近的样本;
以k个最近邻样本点为依据,随机选取其中的N/100个临近点,通过下述公式生成新的样本;
Xnew=Xi+rand(0,1)*(Xi-Xnear)
式中:Xnew为合成的新样本;Xi为选取的原始样本点数据;Xnear为选取的邻近点数据;rand(0,1)为0到1之间的随机数;
步骤3.4:将T个样本分别按照步骤3.3过程合成新的样本,得到(N/100)*T个合成样本;
步骤3.5:通过EasyEnsemble算法从多数类样本中有放回的随机采样n次,每次选取与少数类数目近似的样本,得到n个样本集合记作S={S1、S2、…、Sn};
步骤3.6:将样本集合S中的每一份与少数类样本结合组成n个训练样本{D1、D2、…、Dn},后续训练时将据此在每一个训练集上得到一个模型,对每个模型的预测结果向量和对应的权重向量做内积,然后减去阈值,根据差的符号确定样本的类别。
进一步需要说明的是,步骤4还包括:
步骤4.1:为保证模型对各故障类别识别能力得到充分的训练,将处理好的数据集根据下式所示的分层抽样方法进行数据集划分,以保证各个故障类别在训练集和测试集中所占比例相同;
Figure BDA0003652895120000051
式中:train_datai为故障类别i训练集样本数;datai为故障类别i总样本数;train_size为训练集所占比例;
步骤4.2:将训练集通过CNN-LSTM进行训练,通过CNN的卷积层进行一维卷积操作以提取故障数据中的更高层次特征信息,通过池化层进行降维;
将得到的特征信息输入到LSTM网络中,对故障数据的时间维度特征进行提取,通过全连接层得到样本的映射结果;
步骤4.3:采用Softmax函数将全连接层的输出转换各个类别的概率:
Figure BDA0003652895120000052
式中:zi为全连接层对第i个类别的输出值;n为故障类别总数;
步骤4.4:训练过程中将工业设备实际故障类别标签与训练输出类别标签通过前向传播算法进行损失函数的计算,通过反向传播算法更新各个参数,并以Adam作为优化算法,进而得到精确的分类模型;
步骤4.5:将工业设备故障测试集数据输入到训练好的CNN-LSTM分类模型中,得到设备的故障识别结果;
步骤4.6:构建工业设备分类模型的混淆矩阵,计算真阳性率、假阳性率、真阴性率、假阴性率,得到能够综合体现模型分类性能的指标。
模型分类精度的评价采用各个类别的F1-Score指标以及如下式综合考虑模型对所有故障类别准确率和召回率的指标MicroF1
Figure BDA0003652895120000061
Figure BDA0003652895120000062
Figure BDA0003652895120000063
式中:Precisionm表示模型整体准确率;
Recallm为模型整体召回率;
TPi表示第i个故障类别的真阳性率;
FPi表示第i个故障类别的假阳性率;
FNi表示第i个故障类别的假阴性率;
步骤4.7:通过模型的评估指标对模型进行优化调整。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的数据不平衡情况下的工业设备故障识别方法中采集工业设备运行过程中出现过的故障数据属性信息以及对应故障类别,并进行预处理与特征选择;通过SMOTE过采样技术合成工业设备的少数类故障数据,通过EasyEnsemble欠采样技术处理工业设备的多数类故障数据,得到均衡的故障数据集;基于历史故障数据信息进行训练,通过现有故障数据信息得到工业设备的故障识别结果。本发明考虑了不同故障类别之间的数据不平衡情况,通过挖掘工业设备异常运行数据与故障类型之间的映射关系,对设备的故障进行精准诊断,提高了故障辨识的精度和准度,保证工业设备的稳定运行。
本发明提供的数据不平衡情况下的工业设备故障识别方法提高故障输出结果的准确率,降低对制造业稳定生产造成的影响,提高产品质量。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为数据不平衡情况下的工业设备故障识别方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的数据不平衡情况下的工业设备故障识别方法中,所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明提供的数据不平衡情况下的工业设备故障识别方法中,中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
本发明涉及的数据不平衡情况下的工业设备故障识别方法考虑了不同故障类别之间的数据不平衡情况,通过挖掘工业设备异常运行数据与故障类型之间的映射关系,对设备的故障进行精准诊断。
方法具体包括:如图1所示,
S101:采集工业设备运行过程中出现过的故障数据属性信息以及对应故障类别,并对采集数据进行预处理与特征选择;
步骤101具体包括以下过程:
步骤1.1:对于连续数据缺失的样本,采用与其故障类别相同样本的该类数据平均值进行填充。
步骤1.2:对于分类数据缺失的样本,采用与其故障类别相同的该类数据的众数进行填充。
步骤1.3:将工业设备所属厂家、设备型号、检定故障原因等分类数据处理如下表所示的one-hot编码,此处以变压器故障状态数据为例;
表1变压器状态对应的One-hot编码
表1变压器状态对应的One-hot编码
Figure BDA0003652895120000081
步骤1.4:将故障日期与安装日期作差,得到可替代两者的新连续特征“使用时长”;
步骤1.5:由于所用模型为有监督学习,故对检定故障原因缺失的样本进行删除;数据集中不足10个样本的故障类别缺少同类故障特征多样性,难以验证算法对于该类故障的泛化性,因此舍去;
步骤1.6:工业设备不同特征之间量纲不同,同时数量级之间也有差别,需要进行特征缩放。缩放后的多维度特征无量纲且具有相近的尺度,可以使梯度下降算法更快的收敛,采用标准化公式对数据进行预处理。
Figure BDA0003652895120000091
式中:x′为标准化后的数据,x为某一特征原始数据样本,
Figure BDA0003652895120000092
为样本均值,σ(x)为样本标准差。
步骤1.7:通过距离相关系数对工业设备的输入特征进行选择,过滤掉低相关系数特征,实现特征降维并以该特征作为模型的输入,避免特征冗余影响模型性能。
本发明以变压器设备为例,假设采集到的样本数据个数为n,定义X样本为C2H2、CH4、C2H6、C2H2等特征数据,Y样本为变压器故障类型,两个样本间距离相关系数公式如下:
Figure BDA0003652895120000093
Figure BDA0003652895120000094
Figure BDA0003652895120000095
Figure BDA0003652895120000096
式中:R2(X,Y)为X,Y两样本数据的距离相关系数;Xi、Xj、Xk、Xl分别为某一输入特征数据集中第i、j、k、l个样本;Xi、Xj、Xk、Xl为故障类型数据中第i、j、k、l个样本。v2(X,X)、v2(Y,Y)均可通过上述公式求出。
S102:构建卷积神经网络与长短时记忆网络,并将两种神经网络进行结合得到分类模型;
步骤102具体包括:
步骤2.1:构建卷积神经网络(CNN)。卷积神经网络采用局部连接和权值共享的方式,直接从原始数据中通过卷积层和池化层交替使用来获取有效表征,自动提取数据的局部特征,为LSTM网络提供输入,进而提高模型分类精度。
CNN一般包含三层结构,分别为:卷积层、池化层和全连接层。其中,卷积层在输入数据上应用一组过滤器,也称为卷积核,每个过滤器在输入数据上滑动以提取数据中的特征向量,通过局部感知特性减少模型的计算参数;池化层主要进行欠采样,用于特征降维和压缩参数数量,提高模型的容错性,减少过拟合;全连接层也称输出层,对前几层学习到的高质量特征进行处理,利用相应激活函数得到最终输出结果。
在本方法中应用其卷积层和池化层对工业设备故障数据进行特征提取与参数降维,这种网络结构既减少了权重参数数量,又实现了特征提取的封装,进而提高输出结果的准确率。
步骤2.2:构建长短时记忆网络(LSTM)。LSTM在循环神经网络(RNN)的基础上增加了一个状态单元c,并通过遗忘门、输入门、输出门控制LSTM网络每个时刻的信息状态。LSTM网络在t时刻有3个输入:当前时刻网络的输入值xt,即经过CNN神经网络特征提取后的智能电表故障数据信息;上一时刻LSTM网络隐含层的输出值ht-1;上一时刻的单元状态ct-2。LSTM网络在t时刻有2个输出:当前时刻隐含层的输出值ht和单元状态ct
遗忘门决定上一时刻的单元状态ct-1保留到当前单元状态ct的信息量;输入门决定当前时刻网络的输入xt保存到当前单元状态ct的信息量;输出门决定当前单元状态ct作为当前时刻隐含层输出ht的信息量。
具体公式如下:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure BDA0003652895120000111
Figure BDA0003652895120000112
ot=σ(Wo[ht-1,xt]+bo)
Figure BDA0003652895120000113
式中:ft、it、ot分别为遗忘门、输入门、输出门的门控;
bf、bi、bc、bo分别为对应单元的偏置项;Wf、Wi、Wc、Wo分别为对应单元的权重矩阵;
Figure BDA0003652895120000114
表示元素按位相乘;
Figure BDA0003652895120000115
为候选单元状态;σ表示sigmoid激活函数。
步骤2.3:将两种神经网络进行结合,将输入数据通过CNN进行特征提取与参数降维,输入到LSTM网络中得到最终分类模型。
步骤S103:通过SMOTE过采样技术合成工业设备的少数类故障数据,通过EasyEnsemble欠采样技术处理工业设备的多数类故障数据,得到均衡的故障数据集;
步骤103具体包括:
步骤3.1:具有n维特征的数据集中两个样本分别为Xi=(xi1,xi2,…,xin),Xj=(xj1,xj2,…,xjn),那么样本之间的欧几里得距离为:
Figure BDA0003652895120000116
式中:xil和xjl分别为第i、j个样本的第l个特征变量值。
步骤3.2:选择要进行过采样的类数据集,并输入参数:其输入样本个数T;所需要的采样率N(常取100的整数倍);最邻近样本个数k;
步骤3.3:计算样本集中一个小样本与其他样本之间的欧氏距离,选取k个最邻近的样本。然后以该样本点的k个最近邻样本点为依据,随机选取其中的N/100个临近点,通过下述公式生成新的样本;
Xnew=Xi+rand(0,1)*(Xi-near)
式中:Xnew为合成的新样本;Xi为选取的原始样本点数据;Xnear为选取的邻近点数据;rand(0,1)为0到1之间的随机数。
步骤3.4:将T个样本分别按照上述过程合成新的样本,得到(N/100)*T个合成样本;
步骤3.5:通过EasyEnsemble算法从多数类样本中有放回的随机采样n次,每次选取与少数类数目近似的样本,那么可得到n个样本集合记作S={S1、S2、…、Sn};
步骤3.6:将样本集合S中的每一份与少数类样本结合组成n个训练样本{D1、D2、…、Dn},后续训练时将据此在每一个训练集上得到一个模型,对每个模型的预测结果向量和对应的权重向量做内积,然后减去阈值,根据差的符号确定样本的类别。
步骤S104:通过历史故障数据信息进行训练,通过测试故障数据信息得到工业设备的故障识别结果。
步骤4.1:为保证模型对各故障类别识别能力得到充分的训练,将处理好的数据集根据下式所示的分层抽样方法进行数据集划分,以保证各个故障类别在训练集和测试集中所占比例相同,前者负责训练模型,后者负责模型评估。
Figure BDA0003652895120000121
式中:train_datai为故障类别i训练集样本数;datai为故障类别i总样本数;train_size为训练集所占比例。
步骤4.2:将训练集通过CNN-LSTM进行训练,通过CNN的卷积层进行一维卷积操作以提取智能电表故障数据中的更高层次特征信息,通过池化层进行降维以减少运算参数,避免在大量生成数据的同时导致过拟合现象。然后将得到的特征信息输入到LSTM网络中,对故障数据的时间维度特征进行提取,进而通过全连接层得到样本的映射结果;
步骤4.3:采用Softmax函数将全连接层的输出转换各个类别的概率:
Figure BDA0003652895120000131
式中:zi为全连接层对第i个类别的输出值;n为故障类别总数。
步骤4.4:训练过程中将工业设备实际故障类别标签与训练输出类别标签通过前向传播算法进行损失函数的计算,通过反向传播算法更新各个参数,并以Adam作为优化算法,进而得到精确的分类模型。
步骤4.5:将工业设备故障测试集数据输入到训练好的CNN-LSTM分类模型中,得到设备的故障识别结果。
步骤4.6:构建工业设备分类模型的混淆矩阵,通过它计算真阳性率(TP)、假阳性率(FP)、真阴性率(TN)、假阴性率(FN),进而得到能够综合体现模型分类性能的指标。本方法中模型分类精度的评价采用各个类别的F1-Score指标以及如下式所示可以综合考虑模型对所有故障类别准确率和召回率的指标MicroF1
Figure BDA0003652895120000132
Figure BDA0003652895120000141
Figure BDA0003652895120000142
式中:Precisi nm表示模型整体准确率;Recallm为模型整体召回率;TPi表示第i个故障类别的真阳性率;FPi表示第i个故障类别的假阳性率;FNi表示第i个故障类别的假阴性率。
步骤4.7:通过模型的评估指标对模型进行优化调整,提高故障识别准确率。
本发明提供的数据不平衡情况下的工业设备故障识别方法是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属技术领域的技术人员能够理解,本发明提供的数据不平衡情况下的工业设备故障识别方法的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据不平衡情况下的工业设备故障识别方法,其特征在于,方法包括:
步骤1:采集工业设备运行过程中出现过的故障数据属性信息以及对应故障类别,并对采集数据进行预处理与特征选择;
步骤2:构建卷积神经网络与长短时记忆网络,并将两种神经网络进行结合得到分类模型;
步骤3:通过SMOTE过采样技术合成工业设备的少数类故障数据,通过EasyEnsemble欠采样技术处理工业设备的多数类故障数据,得到均衡的故障数据集;
步骤4:通过历史故障数据信息进行训练,通过测试故障数据信息得到工业设备的故障识别结果。
2.根据权利要求1所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤1具体包括:
步骤1.1:对于连续数据缺失的样本,采用与其故障类别相同样本的类数据平均值进行填充;
步骤1.2:对于分类数据缺失的样本,采用与其故障类别相同的该类数据的众数进行填充;
步骤1.3:将工业设备所属厂家、设备型号、检定故障原因分类数据处理;
步骤1.4:将故障日期与安装日期作差,得到可替代两者的使用时长;
步骤1.5:对检定故障原因缺失的样本进行删除。
3.根据权利要求2所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤1.6:采用标准化公式对数据进行预处理;
Figure FDA0003652895110000011
式中:x′为标准化后的数据,x为某一特征原始数据样本,
Figure FDA0003652895110000012
为样本均值,σ(x)为样本标准差;
步骤1.7:通过距离相关系数对工业设备的输入特征进行选择,过滤掉低相关系数特征,实现输入特征降维并以降维特征作为模型的输入。
4.根据权利要求1所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤2具体包括以下过程:
步骤2.1:构建卷积神经网络;
步骤2.2:构建长短时记忆网络;
LSTM网络在循环神经网络的基础上增加了一个状态单元c,并通过遗忘门、输入门、输出门控制LSTM网络每个时刻的信息状态;
LSTM网络在t时刻有3个输入:
当前时刻网络的输入值xt,即经过CNN神经网络特征提取后的工业设备故障数据信息;
上一时刻LSTM网络隐含层的输出值ht-1;上一时刻的单元状态ct-1
LSTM网络在t时刻有2个输出:当前时刻隐含层的输出值ht和单元状态ct
遗忘门决定上一时刻的单元状态ct-1保留到当前单元状态ct的信息量;
输入门决定当前时刻网络的输入xt保存到当前单元状态ct的信息量;
输出门决定当前单元状态ct作为当前时刻隐含层输出ht的信息量;
步骤2.3:将两种神经网络进行结合,将输入数据通过CNN进行特征提取与参数降维,输入到LSTM网络中得到最终分类模型。
5.根据权利要求4所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤2.1还包括:
卷积神经网络采用局部连接和权值共享的方式,从原始数据中通过卷积层和池化层交替使用来获取有效表征,自动提取数据的局部特征,为LSTM网络提供输入;
卷积神经网络包括:卷积层、池化层和全连接层;通过卷积层和池化层对工业设备故障数据进行特征提取与参数降维,实现特征提取的封装。
6.根据权利要求4所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
遗忘门、输入门以及输出门之间的通过如下公式进行门控:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure FDA0003652895110000031
Figure FDA0003652895110000034
ot=σ(Wo[ht-1,xt]+bo)
Figure FDA0003652895110000035
式中:ft、it、ot分别为遗忘门、输入门、输出门;
bf、bi、bc、bo分别为对应单元的偏置项;
Wf、Wi、Wc、Wo分别为对应单元的权重矩阵;
Figure FDA0003652895110000036
表示元素按位相乘;
Figure FDA0003652895110000032
为候选单元状态;σ表示sigmoid激活函数。
7.根据权利要求4所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤3具体包括以下过程:
步骤3.1:具有n维特征的数据集中两个样本分别为Xi=(xi1,xi2,…,xin),Xj=(xj1,xj2,…,xjn),样本之间的欧几里得距离为:
Figure FDA0003652895110000033
式中:xil和xl分别为第i、j个样本的第l个特征变量值;
步骤3.2:选择要进行过采样的类数据集,并输入参数:
输入样本个数T;需要的采样率N为常取100的整数倍;
最邻近样本个数k;
步骤3.3:计算样本集中一个小样本与其他样本之间的欧氏距离,选取k个最邻近的样本;
以k个最近邻样本点为依据,随机选取其中的N/100个临近点,通过下述公式生成新的样本;
Xnew=Xi+rand(0,1)*(Xi-Xnear)
式中:Xnew为合成的新样本;Xi为选取的原始样本点数据;Xnear为选取的邻近点数据;rand(0,1)为0到1之间的随机数;
步骤3.4:将T个样本分别按照步骤3.3过程合成新的样本,得到(N/100)*T个合成样本;
步骤3.5:通过EasyEnsemble算法从多数类样本中有放回的随机采样n次,每次选取与少数类数目近似的样本,得到n个样本集合记作S={S1、S2、…、Sn};
步骤3.6:将样本集合S中的每一份与少数类样本结合组成n个训练样本{D1、D2、…、Dn},后续训练时将据此在每一个训练集上得到一个模型,对每个模型的预测结果向量和对应的权重向量做内积,然后减去阈值,根据差的符号确定样本的类别。
8.根据权利要求1所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
步骤4还包括:
步骤4.1:为保证模型对各故障类别识别能力得到充分的训练,将处理好的数据集根据下式所示的分层抽样方法进行数据集划分,以保证各个故障类别在训练集和测试集中所占比例相同;
Figure FDA0003652895110000041
式中:train_datai为故障类别i训练集样本数;datai为故障类别i总样本数;train_size为训练集所占比例;
步骤4.2:将训练集通过CNN-LSTM进行训练,通过CNN的卷积层进行一维卷积操作以提取故障数据中的更高层次特征信息,通过池化层进行降维;
将得到的特征信息输入到LSTM网络中,对故障数据的时间维度特征进行提取,通过全连接层得到样本的映射结果;
步骤4.3:采用Softmax函数将全连接层的输出转换各个类别的概率:
Figure FDA0003652895110000051
式中:zi为全连接层对第i个类别的输出值;n为故障类别总数;
步骤4.4:训练过程中将工业设备实际故障类别标签与训练输出类别标签通过前向传播算法进行损失函数的计算,通过反向传播算法更新各个参数,并以Adam作为优化算法,进而得到精确的分类模型;
步骤4.5:将工业设备故障测试集数据输入到训练好的CNN-LSTM分类模型中,得到设备的故障识别结果;
步骤4.6:构建工业设备分类模型的混淆矩阵,计算真阳性率、假阳性率、真阴性率、假阴性率,得到能够综合体现模型分类性能的指标。
9.根据权利要求8所述的数据不平衡情况下的工业设备故障识别方法,其特征在于,
模型分类精度的评价采用各个类别的F1-Score指标以及如下式综合考虑模型对所有故障类别准确率和召回率的指标MicroF1
Figure FDA0003652895110000052
Figure FDA0003652895110000061
Figure FDA0003652895110000062
式中:Precisionm表示模型整体准确率;
Recallm为模型整体召回率;
TPi表示第i个故障类别的真阳性率;
FPi表示第i个故障类别的假阳性率;
FNi表示第i个故障类别的假阴性率;
步骤4.7:通过模型的评估指标对模型进行优化调整。
CN202210546676.5A 2022-05-19 2022-05-19 一种数据不平衡情况下的工业设备故障识别方法 Pending CN115081514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210546676.5A CN115081514A (zh) 2022-05-19 2022-05-19 一种数据不平衡情况下的工业设备故障识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210546676.5A CN115081514A (zh) 2022-05-19 2022-05-19 一种数据不平衡情况下的工业设备故障识别方法

Publications (1)

Publication Number Publication Date
CN115081514A true CN115081514A (zh) 2022-09-20

Family

ID=83249245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210546676.5A Pending CN115081514A (zh) 2022-05-19 2022-05-19 一种数据不平衡情况下的工业设备故障识别方法

Country Status (1)

Country Link
CN (1) CN115081514A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400675A (zh) * 2023-06-09 2023-07-07 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400675A (zh) * 2023-06-09 2023-07-07 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法
CN116400675B (zh) * 2023-06-09 2023-09-15 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法

Similar Documents

Publication Publication Date Title
CN111914883B (zh) 一种基于深度融合网络的主轴轴承状态评估方法及装置
CN111340238A (zh) 一种工业系统的故障诊断方法、装置、设备及存储介质
CN113762329A (zh) 一种大型轧机状态预测模型的构建方法及构建系统
US11137322B2 (en) Diagnosing method of engine condition and diagnostic modeling method thereof
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN111224805A (zh) 一种网络故障根因检测方法、系统及存储介质
CN112767106B (zh) 自动化审计方法、系统、计算机可读存储介质及审计设备
CN113869721A (zh) 一种变电设备健康状态分类方法及装置
CN113077444A (zh) 一种基于cnn的超声无损检测图像缺陷分类方法
CN112596016A (zh) 基于多个一维卷积神经网络集成的互感器故障诊断方法
CN115081514A (zh) 一种数据不平衡情况下的工业设备故障识别方法
WO2022188425A1 (zh) 一种融入先验知识的深度学习故障诊断方法
CN113110398B (zh) 基于动态时间归整和图卷积网络的工业过程故障诊断方法
CN112527572A (zh) 磁盘故障预测方法、装置、计算机可读存储介质及服务器
CN113343581A (zh) 基于图马尔可夫神经网络的变压器故障的诊断方法
CN110320802B (zh) 基于数据可视化的复杂系统信号时序识别方法
CN117258932A (zh) 智能砂磨机的温度监测系统及方法
CN117349786A (zh) 基于数据均衡的证据融合变压器故障诊断方法
CN117078007A (zh) 一种融合尺度标签的多尺度风控系统及其方法
CN116384224A (zh) 一种基于条件化参数动态卷积神经网络的航空发动机寿命预测方法
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及系统
CN115879046A (zh) 基于改进特征选择和分层模型的物联网异常数据检测方法
CN112598186B (zh) 一种基于改进的lstm-mlp的小型发电机故障预测方法
CN112733878A (zh) 一种基于kmeans-SVM算法的变压器故障诊断方法
CN116756619B (zh) 一种基于大数据的设备智能诊断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination