CN114298220A

CN114298220A - 基于上下文注意力动态特征提取器的故障分类方法

Info

Publication number: CN114298220A
Application number: CN202111623545.4A
Authority: CN
Inventors: 张新民; 何柏村; 宋执环; 朱哲人
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-08
Anticipated expiration: 2041-12-28
Also published as: CN114298220B

Abstract

本发明公开了一种基于上下文注意力动态特征提取器的故障分类方法，其中提出了一种基于注意力机制的新型编码器结构，该编码器可以对序列数据并行进行并行操作，提高了处理序列数据的计算效率。同时，提出了一种注意力机制提取序列之间的动态信息。基于所提出的编码器，提出了一种新的动态特征提取器，称为上下文注意力动态特征提取器，并将其应用于工业过程故障分类。本发明方法不仅提高了故障分类模型的分类精度，还具有更高的模型离线训练和在线推理的计算效率，适用于处理大规模数据和满足工业的实时性需求。

Description

基于上下文注意力动态特征提取器的故障分类方法

技术领域

本发明属于工业过程控制领域，特别涉及一种基于上下文注意力动态特征提取器的故障分类方法。

背景技术

在现代工业过程中，由于设备维护成本日益增高，对设备的运行状况进行监控以维持过程的安全运行变得愈发重要。同时，随着信息学和仪器仪表的进步，大量的过程数据得以收集。基于数据驱动的过程监控方法可以通过过程数据检测、识别并诊断异常情况，受到学术界和工业界的关注。

在实践中，由于过程中的控制反馈、纯延迟、多工况等原因，工业过程往往存在动态性，反映为过程变量内部的自相关性以及过程变量之间的互相关性。

为了克服数据的动态行为特性，必须对当前过程数据和过去过程数据之间的关系进行建模。有监督的动态模型(如动态PLS，循环神经网络)利用有标签的过程数据建立动态关系。然而，有监督的动态模型只关注与数据注释相关的动态特征，而没有分析过程的内在动态特征，这使得提取的动态特征的泛化性较差。

现有的无监督动态模型为一类基于循环神经网络的seq-to-seq结构的无监督动态模型，其应用在动态性较强的工业过程中取得不错效果，然而，由于其循环结构，导致了这类模型计算效率低下，在离线训练和在线推断时速度较慢，难以满足工业的实时性要求。因此，亟需提供一种计算效率高的无监督动态特征提取模型，并将其应用于解决具有动态特性的工业过程故障分类问题，以满足实际工业生产需要。

发明内容

本发明的目的在于针对现有技术的不足，提供一种上下文注意力动态特征提取器以及其应用在故障分类方法，该方法包括如下步骤：

一种基于上下文注意力动态特征提取器的故障分类方法，该方法包括以下步骤：

步骤一：收集工业过程的历史数据集，包括过程变量和其对应的故障类别；

步骤二：利用步长为l的滑动窗在所述历史数据集上滑动，得到序列数据

构建基于循环神经网络的动态特征提取器，所述动态特征提取器包括编码器和解码器，用所述序列数据

对动态特征提取器进行训练；

步骤三：利用步长为L的滑动窗在所述历史数据集上滑动，得到序列数据S，并将S分成子序列；利用子序列输入步骤二训练好的编码器中，得到子序列的动态特征；基于上下文注意力机制，利用子序列的动态特征，构建并训练上下文注意力动态特征提取器，所述上下文注意力动态特征提取器包括编码器和解码器，其中，编码器包括query模块、contextextractor模块以及context gate模块；

步骤四：将序列数据S输入步骤三训练好的上下文注意力动态特征提取器，得到对应各个序列的动态特征，将动态特征和对应时刻的样本的过程变量结合，得到动态增强特征；构建故障分类器，并利用动态增强特征对故障分类器进行训练；

步骤五：采集现场工作数据x_infer，将每个时刻的样本与该时刻的历史数据组成长为L的序列数据，利用训练好的上下文注意力动态特征提取器提取动态特征，与该时刻采集的样本的过程变量组合形成动态增强特征，再将该动态增强特征输入训练好的分类器，进行故障识别，输出故障的类别。

进一步地，所述步骤二具体分为如下的子步骤：

(2.1)构建基于循环神经网络的动态特征提取器，循环神经网络采用门控循环单元作为循环层单元，采用序列重构误差作为损失函数进行训练，输入第j时刻对应的序列数据

循环神经网络的编码器的计算公式如下：

其中，x_t表示序列中第t步数据，h_t表示第t步隐变量，h′_t表示第t步中间隐变量，z^e _t表示第t步对应的更新比例，r^e _t表示第t步对应的重置比例，

表示编码器门控循环单元的内部权重矩阵；

将编码器最后一步的隐变量输出为动态特征向量C；

(2.2)将动态特征向量C输入循环神经网络的解码器，获得重构的第j时刻对应的序列数据

其计算公式如下：

其中，s_t表示第t步隐变量，s′_t表示第t步中间隐变量，

表示生成的第t步序列数据；z^d _t表示第t步对应的更新比例；r^d _t表示第t步对应的重置比例；{W^d _o，W^d _i}表示解码器门控循环单元的内部权重矩阵；

(2.3)基于序列数据

采用随机梯度下降算法对所述动态特征提取器进行训练，训练损失函数定义为对输入序列的重构误差，重构误差由下式表示：

其中N_s表示序列个数。

进一步地，所述步骤三具体分为如下的子步骤：

(3.1)利用步长为L的滑动窗在所述历史数据集上滑动，得到序列数据S＝{s_L，s_L+1，...s_i，...s_n}；将长为L的序列数据s_i划分为S个长为1的子序列，即

使用训练好的动态特征提取器的编码器提取动态特征，计算公式如下：

s_i＝[X₁，X₂，...，X_i，...，X_s] (9)

cⁱ＝f_enc(X_i) (10)

其中，cⁱ为第i个子序列的动态特征向量，X_i为第i个子序列；

(3.2)构建上下文注意力动态特征提取器，输入提取的子序列动态特征c计算上下文增强的动态特征，c＝{c¹，c²，...cⁱ，...，c^s}；所述上下文注意力动态特征提取器的编码器的三个模块的计算公式如下：

q^S＝W_Q·c^S (11)

Kⁱ＝W_k·cⁱ (12)

Vⁱ＝W_V·cⁱ

d＝FFN(z) (14)

其中，q^S表示序列对应的query向量，Kⁱ，Vⁱ分别表示第i个子序列对应的key和value向量，K，V分别表示前S-1个子序列key向量和value向量的集合，MultiHead表示多头注意力操作，Concat表示拼接操作，FFN表示前向连接网络，λ表示融合的比例，d表示序列上下文特征向量，

表示序列对应的动态特征向量，{W_Q，W_K，W_V，W_o}表示编码器内部权重矩阵；

(3.3)构建上下文注意力动态特征提取器的解码器，输入序列对应的动态特征向量

生成第t步序列数据预测值，生成方法与步骤(2.2)相同；

(3.4)利用序列数据S，采用随机梯度下降算法对所述上下文注意力动态特征提取器进行训练，训练损失函数定义为对输入序列的重构误差，由下式表示：

其中N_ss表示序列个数。

进一步地，所述步骤四具体分为如下的子步骤：

(4.1)将序列数据S输入步骤三训练好的上下文注意力动态特征提取器，得到对应各个序列的动态特征；

(4.2)将动态特征和对应时刻的样本的过程变量结合，得到动态增强特征；

(4.3)构建故障分类器，输入动态增强特征，利用随机梯度下降法，交叉熵作为分类损失函数，计算公式为：

P(y_i|x^e _i)＝f_CLF(x^e _i) (17)

其中，L_CLF表示分类损失函数，y_i表示故障类别的标签，x^e _i表示第i个时刻样本的动态增强特征，f_CLF表示故障分类器。

本发明的有益效果如下：

本发明公开的基于上下文注意力动态特征提取器的故障分类方法，其中提出了一种基于注意力机制的新型编码器结构，它取代了传统动态特征提取器框架中的循环网络编码器。同时，提出了一种注意力机制提取序列之间的动态信息。基于所提出的编码器，提出了一种新的动态特征提取器，称为上下文注意力动态特征提取器，并将其应用于工业过程故障分类。

该编码器可以对序列数据进行并行操作，提高了处理序列数据的计算效率，从而加速训练和推理，同时，提高了故障分类模型的分类精度，使得模型能够胜任时效性要求更高的工作。

附图说明

图1为上下文注意力编码器示意图；

图2为上下文注意力动态特征提取器示意图；

图3为TE过程流程图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基于上下文注意力动态特征提取器的故障分类方法，首先使用无标签短序列数据对RNN动态特征提取器进行训练，获得训练好的RNN编码器。后使用长序列数据结合RNN编码器对上下文注意力动态特征提取器进行训练，获得上下文注意力编码器。然后，利用上下文注意力编码器提取序列数据的动态特征，再结合原时刻特征形成动态增强特征对分类器进行训练。最后将训练好的上下文注意力编码器以及分类器投入到在线故障分类应用当中。

本发明的方法具体步骤如下：

其中X的每一列代表一个过程变量，每一行代表一个样本，1至n个数据按照数据采集时间先后排序；将该时刻故障类别作为输出，即

1至n个数据按照数据采集时间先后排序,包括正常状态在内共由m类状态类别。

对动态特征提取器进行训练。

步骤二包括如下子步骤：

(2.1)利用步长为l的滑动窗收集序列数据，

其中

(2.2)构建基于循环神经网络的动态特征提取器，循环神经网络采用门控循环单元作为循环层单元，采用序列重构误差作为损失函数进行训练，输入第j时刻对应的序列数据

循环神经网络的编码器的计算公式如下：

表示编码器门控循环单元的内部权重矩阵；

将编码器最后一步的隐变量输出为动态特征向量C；

(2.3)将动态特征向量C输入循环神经网络的解码器，获得重构的第j时刻对应的序列数据

其计算公式如下：

其中，s_t表示第t步隐变量，s′_t表示第t步中间隐变量，

(2.4)基于序列数据

其中N_s表示序列个数。

步骤三：利用步长为L的滑动窗收集序列数据，即

其中

利用子序列输入步骤二训练好的编码器中，得到子序列的动态特征；基于上下文注意力机制，利用子序列的动态特征，构建并训练上下文注意力动态特征提取器，具体分为如下的子步骤：

(3.1)利用步长为L的滑动窗在所述历史数据集上滑动，得到序列数据S＝{s_L，s_L+1，...s_i，...s_n}；将长为L的序列数据s_i划分为S个长为l的子序列，即

s_i＝[X₁，X₂，...，X_i，...，X_S] (9)

cⁱ＝f_enc(X_i) (10)

(3.2)构建上下文注意力动态特征提取器，输入提取的子序列动态特征c计算上下文增强的动态特征，c＝{c¹，c²，...cⁱ，...，c^S}；该特征提取器共编码器和解码器两部分，基于上下文注意力的编码器，共分为三个部分，分别为query模块、context extractor模块以及context gate模块，如图1所示，计算公式如下：：

q^S＝W_Q·c^S (11)

Kⁱ＝W_K·cⁱ (12)

Vⁱ＝W_V·cⁱ

d＝FFN(z) (14)

(3.3)构建上下文注意力动态特征提取器的解码器，如图2所示，输入序列对应的动态特征向量

生成第t步序列数据预测值，生成方法与步骤(2.3)相同；

其中N_ss表示序列个数。

步骤四：将序列数据S输入步骤三训练好的上下文注意力动态特征提取器，得到对应各个序列的动态特征，即

将动态特征和对应时刻过程变量结合，得到动态增强特征，即

构建故障分类器，并利用动态增强数据进行训练，具体分为如下的子步骤：

P(y_i|x^e _i)＝f_CLF(x^e _i) (17)

下面以一个具体工业过程实例验证本发明方法的有效性。实验数据采集于美国田纳西-伊斯曼(Tennessee Eastman,TE)化工实验仿真平台，该平台是故障诊断与故障分类领域的典型应用验证平台。图3为TE过程的流程图，其包含连续搅拌式反应釜，气液分离塔，压缩机，分凝器等设备。采集到的数据包含16个过程变量(见表1)和6个故障类别标签(见表2)；数据一共包含23040个样本，对于每个故障条件，在仿真开始时引入故障。对于所有运行状态，模拟持续运行直到记录了3840个过程数据。为了构建故障分类模型，将采集的数据划分为训练数据(每类包含1280个有标签数据)，校验数据(每类包含1280个有标签数据)和测试数据(每类包含1280个有标签数据)。

表3展示了本发明方法以及其他三种对比算法的故障分类精度。由表3可以看到，与多层感知机(MLP)相比，本发明所提出的上下文注意力编码器提高了平均分类精度和大多数故障条件的分类精度。与滑动窗多层感知机(MW-MLP)和循环网络编码器相比，本发明所提出的上下文注意力编码器获得了更好的平均分类精度。

表4展示了本发明方法在模型训练和在线推断计算效率上的优越性。由表4可以看出，与传统的循环网络编码器相比，本发明所提出的上下文注意力编码器方法有1.27倍的训练加速和5.889倍的在线推理加速。可见本发明所提出的上下文注意力编码器确实提升了模型的计算效率。

表1 16个过程变量

编号	变量名	编号	变量名
				1	A进料流量	9	产品分离器温度
2	D进料流量	10	产品分离器压力
				3	E进料流量	11	产品分离器塔底流量
4	总进料流量	12	汽提器压力
				5	再循环流量	13	汽提器温度
6	反应器进料流量	14	汽提器流量
				7	反应器温度	15	反应器冷却水出口温度
8	排放速度	16	冷凝器冷却水出口温度

表2 6个故障类别标签

故障编号	描述	故障类型
			1	正常	正常
2	冷凝器冷却水入口温度变化	阶跃
			3	物料C的温度变化(流4)	随机变量
4	反应器冷却水入口温度变化	随机变量
			5	反应动力学变化	缓慢漂移
6	未知故障	未知

表3本发明方法以及其他三种对比算法的故障分类精度

表4本发明方法在模型训练和在线推断计算效率

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。