CN117421667A

CN117421667A - 基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法

Info

Publication number: CN117421667A
Application number: CN202311423013.5A
Authority: CN
Inventors: 王浩; 徐浩; 龚圆林
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-19

Abstract

本发明涉及一种基于改进灰狼算法优化的Attention‑CNN‑LSTM工业过程故障诊断方法，属于故障诊断技术领域，包括以下步骤：S1：获取工业过程的样本数据，针对数据集的特点对数据集进行预处理操作，并划分为训练集和测试集；S2：构建Attention‑CNN‑LSTM故障诊断模型，并初始化模型参数；S3：使用改进灰狼算法IGWO对模型参数进行优化；S4：训练Attention‑CNN‑LSTM故障诊断模型，用测试集数据对模型进行测试，得到分类结果；S5：使用训练好的Attention‑CNN‑LSTM故障诊断模型进行工业过程故障诊断。

Description

基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法

技术领域

本发明属于故障诊断技术领域，涉及一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法。

背景技术

在一套完整的工业生产系统中，设备众多，工艺严谨而复杂，运行的工况也十分严苛，个别的设备的异常会影响整个生产系统，严重的时候会造成灾难性的后果。因此为了能快速发现生产状态的异常并且阻止悲剧的发生，应该在设备运转的同时对其进行相关的监控，而大量设备的数据交由人力来分析是难以短时间完成的，通过建立故障诊断模型，再通过此模型来及时的判断在线数据是否异常是更有效的措施，这样能够及时的察觉设备潜在的问题，及早排除隐患，对化工生产的安全是很必要的。

工业规模的扩大使得生产设备的数量与种类都大量增加，所以需要监测的数据样本也越来越复杂，并且不同的故障之间会存在特征相似的情况，加大了故障诊断的难度。因此准确高效的学习故障样本的主要特征是故障诊断的关键。近年来深度学习以其强大的学习与表达能力在各领域都取得了成果，其中循环神经网络(RNN)与卷积神经网络(CNN)是最常见的两种深度学习网络，然而CNN没有记忆能力无法提取数据中的动态特征，LSTM不能有效的处理高维度的数据，并且在样本序列过长时会存在长时间依赖关系的问题，当处理特征相似的故障时会难以识别。

发明内容

有鉴于此，本发明的目的在于提供一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，使用Attention-CNN-LSTM模型提高故障诊断的准确率，并加入注意力机制与改进灰狼算法对模型的权重与LSTM层神经元个数、droupout以及batch_size等超参数进行优化。

为达到上述目的，本发明提供如下技术方案：

一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，包括以下步骤：

S1：获取工业过程的样本数据，针对数据集的特点对数据集进行预处理操作，并划分为训练集和测试集；

S2：构建Attention-CNN-LSTM故障诊断模型，并初始化模型参数；

S3：使用改进灰狼算法IGWO对模型参数进行优化；

S4：训练Attention-CNN-LSTM故障诊断模型，用测试集数据对模型进行测试，得到分类结果；

S5：使用训练好的Attention-CNN-LSTM故障诊断模型进行工业过程故障诊断。

进一步，步骤S1所述预处理操作包括数值清洗和归一化；

所述数据清洗包括对长时间序列数据进行切割，缺失值或野值数据进行修改去除，删除无效数据，对数据的一致性进行检验，以及降噪处理；所述降噪处理具体为通过一种能够随着层数自适应变化的阈值函数，考虑在逐层分解的过程中信噪比的变化情况，在降噪的过程中保留更多的有效信息，公式如下：

其中，λ_j为第j层的小波阈值；σ为估计的噪声标准方差；Mediam(|W_1,k|)指的是第一次小波变换后高频系数绝对值的中值；06745为噪声标准差的调整系数；N_j为第j层信号长度；W_j,k为含噪声信号的小波系数；为经过阈值处理后的小波系数；j为分解层数；k为系数序号；

所述归一化具体为使用Min-Max方法将数据归一化到[0,1]区间，公式如下：

进一步，步骤S2所述Attention-CNN-LSTM故障诊断模型由特征提取层、故障诊断层组成，其具体功能如下：

特征提取层由卷积层、循环层以及注意力机制层组成，通过数据预处理处理后的子序列先进入卷积层进行局部静态特征提取；卷积层提取的特征向量以对应子序列位于原始序列中的现后顺序传入循环层，用于学习数据的动态特征；循环层在提取动态特征后将传入注意力机制层根据特征值的重要程度对其权值进行分配，对不同的特征赋予不同的权值参数，获得资源配比；

故障诊断层用于对特征提取层输出的特征向量进行分类。

进一步，特征提取层中，所述卷积层为一维卷积，卷积核大小设置为3，使用ReLU激活函数；池化层采用最大池化，大小设置为2；卷积层提取的特征值经过展平处理后传入循环层；设卷积层输出的特征向量为H_c＝[h_c1,h_c2,...,h_ci]^T，其中i表示输出特征向量的长度，其计算过程如式为：

f_t＝σ(W_f[h_t-1,X_t]+b_f)

i_t＝σ(W_i[h_t-1,X_t]+b_i)

o_t＝σ(W_o[h_t-1,X_t]+b_o)

h_t＝o_t*tanh(c_t)

其中，σ为激活函数；W_f与b_f为遗忘门的权重与偏置；上一时刻输出h_t-1、cell单元状态c_t-1；当前输入数据X_t；W_i、b_i、W_c、b_c为输入门的权重和偏执；W_o与b_o为输出门的权重与偏执；c_t与h_t表示更新后cell单元状态和当前输出状态。

进一步，所述注意力机制层将需要识别的故障类型映射为Query向量，对于一个故障分类的任务，将输入的特征映射为键-值对序列，分别用Key＝{k₁,k₂,…k_n}和Value＝{v₁,v₂,…v_n}表示其键序列和值序列，通过计算键对应的值来计算注意力，计算的流程如下：

第一步：计算Query和Key之间相关性权重矩阵系数；

第二步：对所得权重矩阵归一化处理；

第三步：将所得到的权重系数与对应的Value加权求和；

针对不同的任务q_i，模型需要针对性的计算每一组键值对，计算方法如下式所示：

式中，W代表模型的参数矩阵；

注意力代表对应特征的关注程度，对注意力分数进行归一化，从而得到每个键对应的权值，使各特征对应的注意力分数之和为1，如下式所示：

将上式得到的权值a_i与特征对应的值v_i加权求和即为该特征值最终的注意力值，如下式所示：

Attention(q_i,Key,Value)＝∑a_iv_i。

进一步，所述故障诊断层运用softmax对特征向量进行分类，公式如下：

其中S为softmax层输入向量，θ为权重矩阵，表示输出u的值为k的概率，最终以概率最大的k作为模型判断的类别。

进一步，步骤S3所述改进灰狼算法中，引入非线性曲线来更新线性收敛因子具体表达式为：

其中t表示迭代次数，T_max表示最大迭代次数；

采用Tent映射来产生混沌序列，对种群位置进行初始化，基于Tent映射生成混沌序列过程如下：

其中，k为种群数，I为当前迭代次数，u取值为(0,1)；结合混沌序列进一步生成搜索区域内的灰狼个体初始位置序列/>过程如下：

其中，分别为/>序列的最大值与最小值。

进一步，所述步骤S4具体包括以下步骤：

S41：数据采集及信号预处理。并将数据集分为训练集、测试集；

S42：初始化种群，采用Tent混沌映射初始化狼群位置，将狼群位置设置在参数范围内；

S43：模型求解，采用Attention-CNN-LSTM组合神经网络进行训练与测试，以模型输出结果的均方根误差作为α、β、δ狼的适应度，从而得到每一匹狼的个体适应度；

S44：位置更新，通过改进的非线性收敛因子更新灰狼个体的位置；

S45：判断是否达到最大迭代次数，若没有达到最大迭代次数则继续训练模型迭代寻优，若达到最大迭代次数则终止算法，输出LSTM层神经元个数、droupout以及batch_size超参数的最优值；

S46：使用测试集对训练好的组合预测分类模型进行测试，得到分类结果。

本发明的有益效果在于：本发明在输出层之前加入了注意力层，使得模型能够筛选出特征中重要的部分，并且同时兼具卷积网络对静态特征的提取能力以及循环网络对动态特征的挖掘能力。由于组合神经网络的超参数设置相较于单一网络对预测精度的影响较大，因此采用改进灰狼算法来优化LSTM层神经元个数、droupout以及batch_size等超参数来节省人工手动调制参数的时间、提高超参数设置的精度和效率，从而提高该故障诊断模型的准确率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为LSTM记忆单元结构图；

图2为Attention-CNN-LSTM结构图；

图3为线性收敛因子与非线性因子取值对比图；

图4为改进的灰狼优化算法流程图；

图5为基于改进灰狼算法优化Attention-CNN-LSTM工业过程故障诊断示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图5，一种基于改进灰狼算法的Attention-CNN-LSTM的工业过程故障诊断方法，包括以下步骤：

(1)获取工业过程的样本数据，针对数据集的特点对数据集进行预处理操作，将预处理后的数据按随机选取的方式选取70％作为训练集，其余30％作为测试集。

预处理采用的方法有包括数值清洗和归一化。其中数据清洗：包括对长时间序列数据进行切割，缺失值或野值数据进行修改去除，删除无效数据，对数据的一致性进行检验，以及降噪处理。传统的小波阈值降噪法在全局使用相同的阈值函数，没有考虑到经过前几层的小波分解后噪声的含量会衰减，得到j+1层的小波系数大约为第j层的所以本发明提出了一种能够随着层数自适应变化的阈值函数，改进后的方法考虑到了在逐层分解的过程中信噪比的变化情况，从而在降噪的过程中保留更多的有效信息。使用自适应小波阈值去噪法进行处理，公式为：

其中，λ_j为第j层的小波阈值；σ为估计的噪声标准方差；Mediam(|W_1,k|)指的是第一次小波变换后高频系数绝对值的中值；06745为噪声标准差的调整系数；N_j为第j层信号长度；W_j,k为含噪声信号的小波系数；为经过阈值处理后的小波系数；j为分解层数；k为系数序号。

归一化：数据集中，每个数值特征可能具有不同的量纲关系，为了避免特征与特征之间的差异较大影响分类结果，提高模型的收敛速度，将数据归一化到[0,1]区间，使用Min-Max方法，公式为：

(2)构建Attention-CNN-LSTM故障诊断模型，并初始化模型参数

在建立数据驱动模型，处理时间序列数据完成故障诊断任务的过程中，遇到的主要问题包括两点，其一是时间序列序列数据较长，运用循环网络会出现梯度爆炸或者梯度消失的长时间依赖关系无法获得的问题，在采用LSTM特殊的记忆门、遗忘门结构后提高了模型对长时间依赖关系的提取能力，但是这种问题在处理过长的序列数据时依然存在不足，提出了一种将长时间序列分割为子序列，通过卷积层预训练后再传入循环层的结构。将相邻一段时间的子序列看作一个整体，再将特征面按照时间序列的结构传入循环层，这样大幅的减少了序列长度，能够有效的缓解长时间依赖关系。

其二是经过卷积层与循环层的处理后，模型提取出能覆盖序列中大部分原始信息并且能够存储长时间依赖关系的动态特征，但是无法得知这些特征值对于识别不同故障类型的重要程度，会导致一些微小故障不易识别。为了提高模型对难以识别的故障的判断能力，一种有效的方法就是使模型能够分辨这些故障时哪些特征值是最重要的，哪些只是辅助识别。本发明引入注意力机制可以实现对网络参数的再分配，在全连接层进行权重的再分配，可以使模型对各特征值的重视程度进行自适应的调整，能够注意到关键特征之间的微小差别从而提高模型对微小故障的识别能力。

Attention-CNN-LSTM网络中，主要由特征提取层、故障诊断层组成，其具体功能如下:

①特征提取层。该层主要由卷积层、循环层以及Attention层组成，通过数据预处理处理后的子序列先进入卷积层进行局部静态特征提取，根据输入数据的特性，卷积层选择一维卷积，卷积核大小设置为3，使用ReLU激活函数；池化层采用最大池化，大小设置为2；卷积层提取的特征值经过展平处理后传入循环层。设卷积层输出的特征向量为H_c＝[h_c1,h_c2,...,h_ci]^T，其中i表示输出特征向量的长度。其计算过程如式为:

P＝max(C)+b_p (6)

H_c＝f(W_H·P+b_H) (7)

其中C为卷积层的输出；W_c与b_c表示卷积层的权重和偏置；为卷积运算符；P为池化层的输出；max为最大池化层中取最大值函数；b_p为池化层的偏置；f为展平处理的激活函数；W_H为权值矩阵；b_H为偏置。

卷积层提取的特征向量以对应子序列位于原始序列中的现后顺序传入循环层，用于学习数据的动态特征。采用LSTM结构作为循环层，其输出向量为H_t＝[h_t1,h_t2,...,h_tj]^T，其中j表示输出向量的长度。其计算过程如式为:

f_t＝σ(W_f[h_t-1,X_t]+b_f) (8)

i_t＝σ(W_i[h_t-1,X_t]+b_i) (9)

o_t＝σ(W_o[h_t-1,X_t]+b_o) (12)

h_t＝o_t*tanh(c_t) (13)

②注意力机制层。循环层在提取动态特征后将传入Attention层根据特征值的重要程度对其权值进行分配，对不同的特征赋予不同的权值参数，获得更优的资源配比。

注意力机制将需要识别的故障类型映射为Query向量，对于一个故障分类的任务，将输入的特征映射为键-值对序列，分别用Key＝{k₁,k₂,…k_n}和Value＝{v₁,v₂,…v_n}表示其键序列和值序列，通过计算键对应的值来计算注意力，计算的流程如下:

第一步：计算Query和Key之间相关性权重矩阵系数；

第二步：对所得权重矩阵归一化处理；

第三步：将所得到的权重系数与对应的Value加权求和。

式中，W代表模型的参数矩阵。

注意力代表对应特征的关注程度，各特征对应的注意力分数之和为1时能更好的描述这种关系，所以需要对注意力分数进行归一化，从而得到每个键对应的权值，如下式所示:

将上式得到的权值a_i与特征对应的值v_i加权求和即为该特征值最终的注意力值，如下式所示:

Attention(q_i,Key,Value)＝∑a_iv_i (16)

③故障诊断层。此层主要运用softmax对上一层处理后输出的特征向量进行分类，公式如下：

(3)改进灰狼算法(IGWO)优化。由于原始GWO模型在局部最优时停滞不前，收敛速度较慢，为了克服这些局限性，引入非线性曲线来更新线性收敛因子以提升算法的搜索精度和收敛速度，平衡算法寻优的搜索性能；初始化狼群位置时采用随机生成方式，狼群容易形成局部圈，这会削弱种群的多样性，导致算法收敛速度慢，且容易陷入局部最优，位置初始化时采用Tent混沌映射。Tent混沌映射是生成混沌序列的方法之一，具有遍历性和均匀性。将传统GWO中的狼群随机初始化改为基于Tent混沌映射的方法，使初始种群个体更加均匀地分布在解空间，以提高全局搜索能力。

①GWO优化算法的收敛因子在迭代过程中是随着迭代次数线性减小的，而在算法前期，随着迭代的增加，收敛因子/>应慢速减小，从而让狼群更大范围搜索目标，达到全局搜索的最大化目的，而迭代到中后期，收敛因子/>应该快速减少，让灰狼目标集中，快速收敛能够促使寻优的有效性。

因此，引入非线性曲线来更新收敛因子具体表达式为：

其中t表示迭代次数，T_max表示最大迭代次数。

②混沌具有随机性和遍历性和初值敏感性，能使算法有更快的收敛速度。本发明采用Tent映射来产生混沌序列，对种群进行初始化，使得初始解尽可能均匀的分布在解空间内。基于Tent映射生成混沌序列过程如下：

其中，k为种群数，I为当前迭代次数，为了保持算法初始化信息的随机性，u取值为(0,1)。结合混沌序列进一步生成搜索区域内的灰狼个体初始位置序列/>过程如下：

其中，分别为/>序列的最大值与最小值。

(4)训练组合预测分类模型，用测试集数据对模型进行测试，得到分类结果。步骤如下：

步骤一：数据采集及信号预处理。并将数据集分为训练集、测试集。

步骤二：初始化种群，采用Tent混沌映射初始化狼群位置，将狼群位置设置在参数范围内。

步骤三：模型求解。采用Attention-CNN-LSTM组合神经网络进行训练与测试，以模型输出结果的均方根误差作为α、β、δ狼的适应度，从而得到每一匹狼的个体适应度。

步骤四：位置更新。通过改进的非线性收敛因子更新灰狼个体的位置。

步骤五：判断是否达到最大迭代次数。若没有达到最大迭代次数则继续训练模型迭代寻优，若达到最大迭代次数则终止算法，输出LSTM层神经元个数、droupout以及batch_size等超参数的最优值。

步骤六：使用测试集对训练好的组合预测分类模型进行测试，得到分类结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：包括以下步骤：

S2：构建Attention-CNN-LSTM故障诊断模型，并初始化模型参数；

S3：使用改进灰狼算法IGWO对模型参数进行优化；

2.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：步骤S1所述预处理操作包括数值清洗和归一化；

3.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：步骤S2所述Attention-CNN-LSTM故障诊断模型由特征提取层、故障诊断层组成，其具体功能如下：

故障诊断层用于对特征提取层输出的特征向量进行分类。

4.根据权利要求3所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：特征提取层中，所述卷积层为一维卷积，卷积核大小设置为3，使用ReLU激活函数；池化层采用最大池化，大小设置为2；卷积层提取的特征值经过展平处理后传入循环层；设卷积层输出的特征向量为H_c＝[h_c1,h_c2,...,h_ci]^T，其中i表示输出特征向量的长度，其计算过程如式为：

f_f＝σ(W_f[h_t-1,X_t]+b_f)

i_t＝σ(W_i[h_t-1,X_t]+b_i)

o_t＝σ(W_o[h_t-1,X_t]+b_o)

h_t＝o_t*tanh(c_t)

5.根据权利要求3所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：所述注意力机制层将需要识别的故障类型映射为Query向量，对于一个故障分类的任务，将输入的特征映射为键-值对序列，分别用Key＝{k₁,k₂,…k_n}和Value＝{v₁,v₂,…v_n}表示其键序列和值序列，通过计算键对应的值来计算注意力，计算的流程如下：

第一步：计算Query和Key之间相关性权重矩阵系数；

第二步：对所得权重矩阵归一化处理；

第三步：将所得到的权重系数与对应的Value加权求和；

式中，W代表模型的参数矩阵；

Attention(q_i,Key,Value)＝∑a_iv_i。

6.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：所述故障诊断层运用softmax对特征向量进行分类，公式如下：

7.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：步骤S3所述改进灰狼算法中，引入非线性曲线来更新线性收敛因子具体表达式为：

其中t表示迭代次数，T_max表示最大迭代次数；

其中，分别为/>序列的最大值与最小值。

8.根据权利要求1所述的基于改进灰狼算法优化的Attention-CNN-LSTM工业过程故障诊断方法，其特征在于：所述步骤S4具体包括以下步骤：

S41：数据采集及信号预处理；并将数据集分为训练集、测试集；