CN117421667A - 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 - Google Patents
基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 Download PDFInfo
- Publication number
- CN117421667A CN117421667A CN202311423013.5A CN202311423013A CN117421667A CN 117421667 A CN117421667 A CN 117421667A CN 202311423013 A CN202311423013 A CN 202311423013A CN 117421667 A CN117421667 A CN 117421667A
- Authority
- CN
- China
- Prior art keywords
- attention
- layer
- fault diagnosis
- lstm
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003745 diagnosis Methods 0.000 title claims abstract description 47
- 241000282461 Canis lupus Species 0.000 title claims abstract description 38
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 26
- 238000005457 optimization Methods 0.000 title claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000000739 chaotic effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 241000282421 Canidae Species 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 210000004027 cell Anatomy 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于改进灰狼算法优化的Attention‑CNN‑LSTM工业过程故障诊断方法,属于故障诊断技术领域,包括以下步骤:S1:获取工业过程的样本数据,针对数据集的特点对数据集进行预处理操作,并划分为训练集和测试集;S2:构建Attention‑CNN‑LSTM故障诊断模型,并初始化模型参数;S3:使用改进灰狼算法IGWO对模型参数进行优化;S4:训练Attention‑CNN‑LSTM故障诊断模型,用测试集数据对模型进行测试,得到分类结果;S5:使用训练好的Attention‑CNN‑LSTM故障诊断模型进行工业过程故障诊断。
Description
技术领域
本发明属于故障诊断技术领域,涉及一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法。
背景技术
在一套完整的工业生产系统中,设备众多,工艺严谨而复杂,运行的工况也十分严苛,个别的设备的异常会影响整个生产系统,严重的时候会造成灾难性的后果。因此为了能快速发现生产状态的异常并且阻止悲剧的发生,应该在设备运转的同时对其进行相关的监控,而大量设备的数据交由人力来分析是难以短时间完成的,通过建立故障诊断模型,再通过此模型来及时的判断在线数据是否异常是更有效的措施,这样能够及时的察觉设备潜在的问题,及早排除隐患,对化工生产的安全是很必要的。
工业规模的扩大使得生产设备的数量与种类都大量增加,所以需要监测的数据样本也越来越复杂,并且不同的故障之间会存在特征相似的情况,加大了故障诊断的难度。因此准确高效的学习故障样本的主要特征是故障诊断的关键。近年来深度学习以其强大的学习与表达能力在各领域都取得了成果,其中循环神经网络(RNN)与卷积神经网络(CNN)是最常见的两种深度学习网络,然而CNN没有记忆能力无法提取数据中的动态特征,LSTM不能有效的处理高维度的数据,并且在样本序列过长时会存在长时间依赖关系的问题,当处理特征相似的故障时会难以识别。
发明内容
有鉴于此,本发明的目的在于提供一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,使用Attention-CNN-LSTM模型提高故障诊断的准确率,并加入注意力机制与改进灰狼算法对模型的权重与LSTM层神经元个数、droupout以及batch_size等超参数进行优化。
为达到上述目的,本发明提供如下技术方案:
一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,包括以下步骤:
S1:获取工业过程的样本数据,针对数据集的特点对数据集进行预处理操作,并划分为训练集和测试集;
S2:构建Attention-CNN-LSTM故障诊断模型,并初始化模型参数;
S3:使用改进灰狼算法IGWO对模型参数进行优化;
S4:训练Attention-CNN-LSTM故障诊断模型,用测试集数据对模型进行测试,得到分类结果;
S5:使用训练好的Attention-CNN-LSTM故障诊断模型进行工业过程故障诊断。
进一步,步骤S1所述预处理操作包括数值清洗和归一化;
所述数据清洗包括对长时间序列数据进行切割,缺失值或野值数据进行修改去除,删除无效数据,对数据的一致性进行检验,以及降噪处理;所述降噪处理具体为通过一种能够随着层数自适应变化的阈值函数,考虑在逐层分解的过程中信噪比的变化情况,在降噪的过程中保留更多的有效信息,公式如下:
其中,λj为第j层的小波阈值;σ为估计的噪声标准方差;Mediam(|W1,k|)指的是第一次小波变换后高频系数绝对值的中值;06745为噪声标准差的调整系数;Nj为第j层信号长度;Wj,k为含噪声信号的小波系数;为经过阈值处理后的小波系数;j为分解层数;k为系数序号;
所述归一化具体为使用Min-Max方法将数据归一化到[0,1]区间,公式如下:
进一步,步骤S2所述Attention-CNN-LSTM故障诊断模型由特征提取层、故障诊断层组成,其具体功能如下:
特征提取层由卷积层、循环层以及注意力机制层组成,通过数据预处理处理后的子序列先进入卷积层进行局部静态特征提取;卷积层提取的特征向量以对应子序列位于原始序列中的现后顺序传入循环层,用于学习数据的动态特征;循环层在提取动态特征后将传入注意力机制层根据特征值的重要程度对其权值进行分配,对不同的特征赋予不同的权值参数,获得资源配比;
故障诊断层用于对特征提取层输出的特征向量进行分类。
进一步,特征提取层中,所述卷积层为一维卷积,卷积核大小设置为3,使用ReLU激活函数;池化层采用最大池化,大小设置为2;卷积层提取的特征值经过展平处理后传入循环层;设卷积层输出的特征向量为Hc=[hc1,hc2,...,hci]T,其中i表示输出特征向量的长度,其计算过程如式为:
ft=σ(Wf[ht-1,Xt]+bf)
it=σ(Wi[ht-1,Xt]+bi)
ot=σ(Wo[ht-1,Xt]+bo)
ht=ot*tanh(ct)
其中,σ为激活函数;Wf与bf为遗忘门的权重与偏置;上一时刻输出ht-1、cell单元状态ct-1;当前输入数据Xt;Wi、bi、Wc、bc为输入门的权重和偏执;Wo与bo为输出门的权重与偏执;ct与ht表示更新后cell单元状态和当前输出状态。
进一步,所述注意力机制层将需要识别的故障类型映射为Query向量,对于一个故障分类的任务,将输入的特征映射为键-值对序列,分别用Key={k1,k2,…kn}和Value={v1,v2,…vn}表示其键序列和值序列,通过计算键对应的值来计算注意力,计算的流程如下:
第一步:计算Query和Key之间相关性权重矩阵系数;
第二步:对所得权重矩阵归一化处理;
第三步:将所得到的权重系数与对应的Value加权求和;
针对不同的任务qi,模型需要针对性的计算每一组键值对,计算方法如下式所示:
式中,W代表模型的参数矩阵;
注意力代表对应特征的关注程度,对注意力分数进行归一化,从而得到每个键对应的权值,使各特征对应的注意力分数之和为1,如下式所示:
将上式得到的权值ai与特征对应的值vi加权求和即为该特征值最终的注意力值,如下式所示:
Attention(qi,Key,Value)=∑aivi。
进一步,所述故障诊断层运用softmax对特征向量进行分类,公式如下:
其中S为softmax层输入向量,θ为权重矩阵,表示输出u的值为k的概率,最终以概率最大的k作为模型判断的类别。
进一步,步骤S3所述改进灰狼算法中,引入非线性曲线来更新线性收敛因子具体表达式为:
其中t表示迭代次数,Tmax表示最大迭代次数;
采用Tent映射来产生混沌序列,对种群位置进行初始化,基于Tent映射生成混沌序列过程如下:
其中,k为种群数,I为当前迭代次数,u取值为(0,1);结合混沌序列进一步生成搜索区域内的灰狼个体初始位置序列/>过程如下:
其中,分别为/>序列的最大值与最小值。
进一步,所述步骤S4具体包括以下步骤:
S41:数据采集及信号预处理。并将数据集分为训练集、测试集;
S42:初始化种群,采用Tent混沌映射初始化狼群位置,将狼群位置设置在参数范围内;
S43:模型求解,采用Attention-CNN-LSTM组合神经网络进行训练与测试,以模型输出结果的均方根误差作为α、β、δ狼的适应度,从而得到每一匹狼的个体适应度;
S44:位置更新,通过改进的非线性收敛因子更新灰狼个体的位置;
S45:判断是否达到最大迭代次数,若没有达到最大迭代次数则继续训练模型迭代寻优,若达到最大迭代次数则终止算法,输出LSTM层神经元个数、droupout以及batch_size超参数的最优值;
S46:使用测试集对训练好的组合预测分类模型进行测试,得到分类结果。
本发明的有益效果在于:本发明在输出层之前加入了注意力层,使得模型能够筛选出特征中重要的部分,并且同时兼具卷积网络对静态特征的提取能力以及循环网络对动态特征的挖掘能力。由于组合神经网络的超参数设置相较于单一网络对预测精度的影响较大,因此采用改进灰狼算法来优化LSTM层神经元个数、droupout以及batch_size等超参数来节省人工手动调制参数的时间、提高超参数设置的精度和效率,从而提高该故障诊断模型的准确率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为LSTM记忆单元结构图;
图2为Attention-CNN-LSTM结构图;
图3为线性收敛因子与非线性因子取值对比图;
图4为改进的灰狼优化算法流程图;
图5为基于改进灰狼算法优化Attention-CNN-LSTM工业过程故障诊断示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图5,一种基于改进灰狼算法的Attention-CNN-LSTM的工业过程故障诊断方法,包括以下步骤:
(1)获取工业过程的样本数据,针对数据集的特点对数据集进行预处理操作,将预处理后的数据按随机选取的方式选取70%作为训练集,其余30%作为测试集。
预处理采用的方法有包括数值清洗和归一化。其中数据清洗:包括对长时间序列数据进行切割,缺失值或野值数据进行修改去除,删除无效数据,对数据的一致性进行检验,以及降噪处理。传统的小波阈值降噪法在全局使用相同的阈值函数,没有考虑到经过前几层的小波分解后噪声的含量会衰减,得到j+1层的小波系数大约为第j层的所以本发明提出了一种能够随着层数自适应变化的阈值函数,改进后的方法考虑到了在逐层分解的过程中信噪比的变化情况,从而在降噪的过程中保留更多的有效信息。使用自适应小波阈值去噪法进行处理,公式为:
其中,λj为第j层的小波阈值;σ为估计的噪声标准方差;Mediam(|W1,k|)指的是第一次小波变换后高频系数绝对值的中值;06745为噪声标准差的调整系数;Nj为第j层信号长度;Wj,k为含噪声信号的小波系数;为经过阈值处理后的小波系数;j为分解层数;k为系数序号。
归一化:数据集中,每个数值特征可能具有不同的量纲关系,为了避免特征与特征之间的差异较大影响分类结果,提高模型的收敛速度,将数据归一化到[0,1]区间,使用Min-Max方法,公式为:
(2)构建Attention-CNN-LSTM故障诊断模型,并初始化模型参数
在建立数据驱动模型,处理时间序列数据完成故障诊断任务的过程中,遇到的主要问题包括两点,其一是时间序列序列数据较长,运用循环网络会出现梯度爆炸或者梯度消失的长时间依赖关系无法获得的问题,在采用LSTM特殊的记忆门、遗忘门结构后提高了模型对长时间依赖关系的提取能力,但是这种问题在处理过长的序列数据时依然存在不足,提出了一种将长时间序列分割为子序列,通过卷积层预训练后再传入循环层的结构。将相邻一段时间的子序列看作一个整体,再将特征面按照时间序列的结构传入循环层,这样大幅的减少了序列长度,能够有效的缓解长时间依赖关系。
其二是经过卷积层与循环层的处理后,模型提取出能覆盖序列中大部分原始信息并且能够存储长时间依赖关系的动态特征,但是无法得知这些特征值对于识别不同故障类型的重要程度,会导致一些微小故障不易识别。为了提高模型对难以识别的故障的判断能力,一种有效的方法就是使模型能够分辨这些故障时哪些特征值是最重要的,哪些只是辅助识别。本发明引入注意力机制可以实现对网络参数的再分配,在全连接层进行权重的再分配,可以使模型对各特征值的重视程度进行自适应的调整,能够注意到关键特征之间的微小差别从而提高模型对微小故障的识别能力。
Attention-CNN-LSTM网络中,主要由特征提取层、故障诊断层组成,其具体功能如下:
①特征提取层。该层主要由卷积层、循环层以及Attention层组成,通过数据预处理处理后的子序列先进入卷积层进行局部静态特征提取,根据输入数据的特性,卷积层选择一维卷积,卷积核大小设置为3,使用ReLU激活函数;池化层采用最大池化,大小设置为2;卷积层提取的特征值经过展平处理后传入循环层。设卷积层输出的特征向量为Hc=[hc1,hc2,...,hci]T,其中i表示输出特征向量的长度。其计算过程如式为:
P=max(C)+bp (6)
Hc=f(WH·P+bH) (7)
其中C为卷积层的输出;Wc与bc表示卷积层的权重和偏置;为卷积运算符;P为池化层的输出;max为最大池化层中取最大值函数;bp为池化层的偏置;f为展平处理的激活函数;WH为权值矩阵;bH为偏置。
卷积层提取的特征向量以对应子序列位于原始序列中的现后顺序传入循环层,用于学习数据的动态特征。采用LSTM结构作为循环层,其输出向量为Ht=[ht1,ht2,...,htj]T,其中j表示输出向量的长度。其计算过程如式为:
ft=σ(Wf[ht-1,Xt]+bf) (8)
it=σ(Wi[ht-1,Xt]+bi) (9)
ot=σ(Wo[ht-1,Xt]+bo) (12)
ht=ot*tanh(ct) (13)
其中,σ为激活函数;Wf与bf为遗忘门的权重与偏置;上一时刻输出ht-1、cell单元状态ct-1;当前输入数据Xt;Wi、bi、Wc、bc为输入门的权重和偏执;Wo与bo为输出门的权重与偏执;ct与ht表示更新后cell单元状态和当前输出状态。
②注意力机制层。循环层在提取动态特征后将传入Attention层根据特征值的重要程度对其权值进行分配,对不同的特征赋予不同的权值参数,获得更优的资源配比。
注意力机制将需要识别的故障类型映射为Query向量,对于一个故障分类的任务,将输入的特征映射为键-值对序列,分别用Key={k1,k2,…kn}和Value={v1,v2,…vn}表示其键序列和值序列,通过计算键对应的值来计算注意力,计算的流程如下:
第一步:计算Query和Key之间相关性权重矩阵系数;
第二步:对所得权重矩阵归一化处理;
第三步:将所得到的权重系数与对应的Value加权求和。
针对不同的任务qi,模型需要针对性的计算每一组键值对,计算方法如下式所示:
式中,W代表模型的参数矩阵。
注意力代表对应特征的关注程度,各特征对应的注意力分数之和为1时能更好的描述这种关系,所以需要对注意力分数进行归一化,从而得到每个键对应的权值,如下式所示:
将上式得到的权值ai与特征对应的值vi加权求和即为该特征值最终的注意力值,如下式所示:
Attention(qi,Key,Value)=∑aivi (16)
③故障诊断层。此层主要运用softmax对上一层处理后输出的特征向量进行分类,公式如下:
其中S为softmax层输入向量,θ为权重矩阵,表示输出u的值为k的概率,最终以概率最大的k作为模型判断的类别。
(3)改进灰狼算法(IGWO)优化。由于原始GWO模型在局部最优时停滞不前,收敛速度较慢,为了克服这些局限性,引入非线性曲线来更新线性收敛因子以提升算法的搜索精度和收敛速度,平衡算法寻优的搜索性能;初始化狼群位置时采用随机生成方式,狼群容易形成局部圈,这会削弱种群的多样性,导致算法收敛速度慢,且容易陷入局部最优,位置初始化时采用Tent混沌映射。Tent混沌映射是生成混沌序列的方法之一,具有遍历性和均匀性。将传统GWO中的狼群随机初始化改为基于Tent混沌映射的方法,使初始种群个体更加均匀地分布在解空间,以提高全局搜索能力。
①GWO优化算法的收敛因子在迭代过程中是随着迭代次数线性减小的,而在算法前期,随着迭代的增加,收敛因子/>应慢速减小,从而让狼群更大范围搜索目标,达到全局搜索的最大化目的,而迭代到中后期,收敛因子/>应该快速减少,让灰狼目标集中,快速收敛能够促使寻优的有效性。
因此,引入非线性曲线来更新收敛因子具体表达式为:
其中t表示迭代次数,Tmax表示最大迭代次数。
②混沌具有随机性和遍历性和初值敏感性,能使算法有更快的收敛速度。本发明采用Tent映射来产生混沌序列,对种群进行初始化,使得初始解尽可能均匀的分布在解空间内。基于Tent映射生成混沌序列过程如下:
其中,k为种群数,I为当前迭代次数,为了保持算法初始化信息的随机性,u取值为(0,1)。结合混沌序列进一步生成搜索区域内的灰狼个体初始位置序列/>过程如下:
其中,分别为/>序列的最大值与最小值。
(4)训练组合预测分类模型,用测试集数据对模型进行测试,得到分类结果。步骤如下:
步骤一:数据采集及信号预处理。并将数据集分为训练集、测试集。
步骤二:初始化种群,采用Tent混沌映射初始化狼群位置,将狼群位置设置在参数范围内。
步骤三:模型求解。采用Attention-CNN-LSTM组合神经网络进行训练与测试,以模型输出结果的均方根误差作为α、β、δ狼的适应度,从而得到每一匹狼的个体适应度。
步骤四:位置更新。通过改进的非线性收敛因子更新灰狼个体的位置。
步骤五:判断是否达到最大迭代次数。若没有达到最大迭代次数则继续训练模型迭代寻优,若达到最大迭代次数则终止算法,输出LSTM层神经元个数、droupout以及batch_size等超参数的最优值。
步骤六:使用测试集对训练好的组合预测分类模型进行测试,得到分类结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:包括以下步骤:
S1:获取工业过程的样本数据,针对数据集的特点对数据集进行预处理操作,并划分为训练集和测试集;
S2:构建Attention-CNN-LSTM故障诊断模型,并初始化模型参数;
S3:使用改进灰狼算法IGWO对模型参数进行优化;
S4:训练Attention-CNN-LSTM故障诊断模型,用测试集数据对模型进行测试,得到分类结果;
S5:使用训练好的Attention-CNN-LSTM故障诊断模型进行工业过程故障诊断。
2.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:步骤S1所述预处理操作包括数值清洗和归一化;
所述数据清洗包括对长时间序列数据进行切割,缺失值或野值数据进行修改去除,删除无效数据,对数据的一致性进行检验,以及降噪处理;所述降噪处理具体为通过一种能够随着层数自适应变化的阈值函数,考虑在逐层分解的过程中信噪比的变化情况,在降噪的过程中保留更多的有效信息,公式如下:
其中,λj为第j层的小波阈值;σ为估计的噪声标准方差;Mediam(|W1,k|)指的是第一次小波变换后高频系数绝对值的中值;06745为噪声标准差的调整系数;Nj为第j层信号长度;Wj,k为含噪声信号的小波系数;为经过阈值处理后的小波系数;j为分解层数;k为系数序号;
所述归一化具体为使用Min-Max方法将数据归一化到[0,1]区间,公式如下:
3.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:步骤S2所述Attention-CNN-LSTM故障诊断模型由特征提取层、故障诊断层组成,其具体功能如下:
特征提取层由卷积层、循环层以及注意力机制层组成,通过数据预处理处理后的子序列先进入卷积层进行局部静态特征提取;卷积层提取的特征向量以对应子序列位于原始序列中的现后顺序传入循环层,用于学习数据的动态特征;循环层在提取动态特征后将传入注意力机制层根据特征值的重要程度对其权值进行分配,对不同的特征赋予不同的权值参数,获得资源配比;
故障诊断层用于对特征提取层输出的特征向量进行分类。
4.根据权利要求3所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:特征提取层中,所述卷积层为一维卷积,卷积核大小设置为3,使用ReLU激活函数;池化层采用最大池化,大小设置为2;卷积层提取的特征值经过展平处理后传入循环层;设卷积层输出的特征向量为Hc=[hc1,hc2,...,hci]T,其中i表示输出特征向量的长度,其计算过程如式为:
ff=σ(Wf[ht-1,Xt]+bf)
it=σ(Wi[ht-1,Xt]+bi)
ot=σ(Wo[ht-1,Xt]+bo)
ht=ot*tanh(ct)
其中,σ为激活函数;Wf与bf为遗忘门的权重与偏置;上一时刻输出ht-1、cell单元状态ct-1;当前输入数据Xt;Wi、bi、Wc、bc为输入门的权重和偏执;Wo与bo为输出门的权重与偏执;ct与ht表示更新后cell单元状态和当前输出状态。
5.根据权利要求3所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:所述注意力机制层将需要识别的故障类型映射为Query向量,对于一个故障分类的任务,将输入的特征映射为键-值对序列,分别用Key={k1,k2,…kn}和Value={v1,v2,…vn}表示其键序列和值序列,通过计算键对应的值来计算注意力,计算的流程如下:
第一步:计算Query和Key之间相关性权重矩阵系数;
第二步:对所得权重矩阵归一化处理;
第三步:将所得到的权重系数与对应的Value加权求和;
针对不同的任务qi,模型需要针对性的计算每一组键值对,计算方法如下式所示:
式中,W代表模型的参数矩阵;
注意力代表对应特征的关注程度,对注意力分数进行归一化,从而得到每个键对应的权值,使各特征对应的注意力分数之和为1,如下式所示:
将上式得到的权值ai与特征对应的值vi加权求和即为该特征值最终的注意力值,如下式所示:
Attention(qi,Key,Value)=∑aivi。
6.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:所述故障诊断层运用softmax对特征向量进行分类,公式如下:
其中S为softmax层输入向量,θ为权重矩阵,表示输出u的值为k的概率,最终以概率最大的k作为模型判断的类别。
7.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:步骤S3所述改进灰狼算法中,引入非线性曲线来更新线性收敛因子具体表达式为:
其中t表示迭代次数,Tmax表示最大迭代次数;
采用Tent映射来产生混沌序列,对种群位置进行初始化,基于Tent映射生成混沌序列过程如下:
其中,k为种群数,I为当前迭代次数,u取值为(0,1);结合混沌序列进一步生成搜索区域内的灰狼个体初始位置序列/>过程如下:
其中,分别为/>序列的最大值与最小值。
8.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法,其特征在于:所述步骤S4具体包括以下步骤:
S41:数据采集及信号预处理;并将数据集分为训练集、测试集;
S42:初始化种群,采用Tent混沌映射初始化狼群位置,将狼群位置设置在参数范围内;
S43:模型求解,采用Attention-CNN-LSTM组合神经网络进行训练与测试,以模型输出结果的均方根误差作为α、β、δ狼的适应度,从而得到每一匹狼的个体适应度;
S44:位置更新,通过改进的非线性收敛因子更新灰狼个体的位置;
S45:判断是否达到最大迭代次数,若没有达到最大迭代次数则继续训练模型迭代寻优,若达到最大迭代次数则终止算法,输出LSTM层神经元个数、droupout以及batch_size超参数的最优值;
S46:使用测试集对训练好的组合预测分类模型进行测试,得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311423013.5A CN117421667A (zh) | 2023-10-30 | 2023-10-30 | 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311423013.5A CN117421667A (zh) | 2023-10-30 | 2023-10-30 | 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421667A true CN117421667A (zh) | 2024-01-19 |
Family
ID=89522638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311423013.5A Pending CN117421667A (zh) | 2023-10-30 | 2023-10-30 | 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421667A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668670A (zh) * | 2024-02-01 | 2024-03-08 | 青岛理工大学 | 一种港口起重装备故障诊断方法及系统 |
CN117807509A (zh) * | 2024-02-29 | 2024-04-02 | 南京工业大学 | 基于平行注意力的轴承故障诊断方法、设备及存储介质 |
-
2023
- 2023-10-30 CN CN202311423013.5A patent/CN117421667A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668670A (zh) * | 2024-02-01 | 2024-03-08 | 青岛理工大学 | 一种港口起重装备故障诊断方法及系统 |
CN117668670B (zh) * | 2024-02-01 | 2024-05-10 | 青岛理工大学 | 一种港口起重装备故障诊断方法及系统 |
CN117807509A (zh) * | 2024-02-29 | 2024-04-02 | 南京工业大学 | 基于平行注意力的轴承故障诊断方法、设备及存储介质 |
CN117807509B (zh) * | 2024-02-29 | 2024-04-30 | 南京工业大学 | 基于平行注意力的轴承故障诊断方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508655B (zh) | 基于孪生网络的不完备训练集的sar目标识别方法 | |
Peng et al. | Bayesian deep-learning-based health prognostics toward prognostics uncertainty | |
CN111832216B (zh) | 基于eemd-mcnn-gru的滚动轴承剩余使用寿命预测方法 | |
CN105224872B (zh) | 一种基于神经网络聚类的用户异常行为检测方法 | |
CN110321603B (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN112784881B (zh) | 网络异常流量检测方法、模型及系统 | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN100390774C (zh) | 带有监督和非监督簇分析的似真神经网络 | |
CN117421667A (zh) | 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法 | |
CN111914728B (zh) | 高光谱遥感影像半监督分类方法、装置及存储介质 | |
CN111639719B (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
Ayed et al. | Adaptive fuzzy exponent cluster ensemble system based feature selection and spectral clustering | |
Badriyah et al. | Improving stroke diagnosis accuracy using hyperparameter optimized deep learning | |
CN112232395A (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN115017939A (zh) | 一种飞机燃油泵故障智能诊断方法、装置和存储介质 | |
CN112613032B (zh) | 基于系统调用序列的主机入侵检测方法及装置 | |
Dishar et al. | A Review of the Overfitting Problem in Convolution Neural Network and Remedy Approaches | |
Kamimura | Progressive feature extraction with a greedy network-growing algorithm | |
CN110941542B (zh) | 基于弹性网络的序列集成高维数据异常检测系统及方法 | |
CN111652246B (zh) | 一种基于深度学习的图像自适应稀疏化表征方法及装置 | |
CN113283520A (zh) | 面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置 | |
Azmer et al. | Comparative analysis of classification techniques for leaves and land cover texture. | |
Wan et al. | An improved PixelHop framework and its application in rolling bearing fault diagnosis | |
Xiaolin et al. | Research on Face Recognition Algorithm Based on Improved Residual Neural Network | |
Chellamani et al. | Heart disease prediction using Boosting Algorithms: Performance Analysis and Comparison |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |