CN117312821A

CN117312821A - 一种基于特征提取和Transformer模型的故障检测方法

Info

Publication number: CN117312821A
Application number: CN202311042804.3A
Authority: CN
Inventors: 谢莹; 朱愿; 刘雪伟; 胡范超; 鲁振杰
Original assignee: Shenyang University of Chemical Technology
Current assignee: Shenyang University of Chemical Technology
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-12-29

Abstract

一种基于特征提取和Transformer模型的故障检测方法，属于工业过程故障检测方法。首先采集工业生产过程中的数据，分别利用主元分析法和堆叠降噪自编码器对数据进行降维降噪处理，提取过程数据中的线性和非线性特征；其次将提取到的两种特征分别输入到多层卷积结构，利用卷积神经网络来挖掘数据的局部相关信息；随后将融合局部信息的两种特征输入到Transformer模型；最后将融合了局部信息和全局信息的两种特征进行拼接，模型通过逻辑回归得到预测结果。本发明有效解决复杂工业生产过程中存在的线性和非线性关系，以及Transformer模型存在的局部信息缺失和收敛速度缓慢的问题，提高了模型故障检测的性能，该模型提高了故障检测的准确性。

Description

一种基于特征提取和Transformer模型的故障检测方法

技术领域

本发明涉及一种故障检测方法，尤其涉及一种基于特征提取和Transformer模型的故障检测方法。

背景技术

一个安全准确的故障检测和诊断(Fault Detection and Diagnosis，FDD)算法对于每个工业生产过程都是至关重要的。目前主流的FDD算法包括：机理建模、知识驱动建模和数据驱动建模。基于机理建模的方法主要通过构造观测器来估计系统输出进而实现对故障的检测与诊断，常用的方法有参数估计法、等价空间法和状态估计法等。基于知识驱动建模的方法主要通过现有的知识和一定的推理机制对化工过程进行故障检测和诊断，常用的方法有符号有向图、专家系统和故障树等。但是随着现代工业和计算机技术的快速发展，基于机理和知识驱动建模的方法已经不能满足现实工业生产的要求，计算机技术的发展使得大量的化工过程数据能够直接被记录并收集，基于数据驱动建模的方法在相关技术的支持下蓬勃发展。基于数据驱动建模的方法是利用工业过程中传感器收集到的历史数据直接建立模型，从而实现系统状态检测和诊断。基于数据驱动建模的方法可以进一步细分为统计方法、浅层学习方法和深度学习方法，统计方法和浅层学习方法在一些工业过程故障检测中取得了不错的成绩，但当数据中存在强非线性关系时，浅层结构无法有效处理，因此深度学习方法应运而生。

深度学习是一种具有多层表示法的表示学习方法，模型通常包含深层次结构，每层结构由多个简单的线性和非线性模块组成，可以拟合复杂的函数关系。深度学习用于故障检测和诊断可以克服浅层结构无法有效处理非线性关系的问题，充分学习工业过程数据中的强非线性关系，其中应用较广泛的深度学习方法有自动编码器(Auto-Encoder，AE)、深度置信网络(Deep Belief Network，DBN)、卷积神经网络(Convolutional NeuralNetwork，CNN)和循环神经网络(Recurrent Neural Networks，RNN)等，在诸多研究中取得了不错的效果。

Transformer是由谷歌在2017年提出的完全基于注意力机制的深度学习模型，首先被应用于自然语言处理领域，在诸多任务上取得了显著的效果，因此各个领域有关Transformer模型的研究开始兴起，其中包括计算机视觉、音频处理和时间序列等。Transformer模型在各领域的应用中显现出了它的诸多优点，如其能够显著地捕获序列数据的长时程依赖性，解决顺序学习问题实现并行运算，模型融合多种模态信息能力强，模型中的多头自注意力机制能够实现特征信息的全面提取，模型可解释性强等。Transformer模型长时间建模的强大能力和诸多优点使得其在故障检测领域有着很好的应用前景，但仍有不足之处，如Tmnsformer模型忽略了数据之间的局部相关性和收敛速度缓慢等问题。因此在面对具有大规模、高维度、非线性等复杂数据特性的工业过程数据时，传统的Transformer模型很难取得良好的故障检测效果。所以现在急需一种有效的过程故障检测方法对现代的工业生产过程采集的大规模数据进行统一建模并进行故障检测。

发明内容

本发明的目的在于提供一种基于特征提取和Transformer模型的故障检测方法，针对工业过程中数据的大规模、高维度、非线性等复杂数据特性以及故障检测问题，本发明实现在数据大规模、高维度和非线性的情况下，对工业数据进行特征提取，提高故障检测的准确率。

本发明所采取的技术方案是：

一种基于特征提取和Transformer模型的故障检测方法，将该模型应用于工业过程故障检测，包括以下步骤：

步骤一：采集工业过程中N个样本数据x∈R^N×m，其中m表示数据的变量数，N表示采集的样本总数，利用主元分析法(Principal ComponentAnalysis，PCA)对数据x进行降维降噪处理，提取过程数据中的线性特征，PCA处理流程如公式(1)-(4)所示：

S＝COV(X) (2)

u，v，u^T＝SVD(S) (3)

X_pca＝XP (4)

其中，公式(1)是对数据x做去均值化处理，表示数据x的列均值，公式(2)是求去均值化后数据X的协方差矩阵S∈R^m×m，公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈R^m和奇异矩阵u∈R^m×1，假设取奇异值总和的85％作为主成分，则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈R^m×k，公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据X_pca∈R^N×k。

步骤二：利用堆叠降噪自编码器(Stacked DenoisingAuto-Encoder，SDAE)提取数据x中的非线性特征，SDAE处理流程如公式(5)-(8)所示：

Z＝W′Y+b′ (7)

其中，公式(5)是对数据x通过随机映射损坏为公式(6)是通过编码器将破坏输入/>映射为隐藏向量Y∈R^m×l，l表示隐藏层神经元个数，公式(7)是通过解码器将隐藏向量Y映射为重构向量Z，公式(8)表示SDAE的损失函数，重构向量Z需要尽可能地接近原始输入x来达到提取特征的作用，最终通过训练得到的隐藏向量Y∈R^m×l就是SDAE从数据x中提取到的非线性特征，标记为X_SDAE∈R^m×l

步骤三：将PCA提取到的线性特征X_pca∈R^N×k和SDAE提取到的非线性特征X_SDAE∈R^m×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中d_model为映射得到的维度。随后将/>和/>分别输入到多层卷积结构，利用卷积神经网络的局部连接的特性来提取数据的局部相关信息，因为卷积的长度和宽度往往是小于输入特征图的，因此卷积每次是和输入特征图的一部分进行计算，提取的是局部特征信息，多个卷积层叠加可以扩大提取范围，当单个卷积核在输入特征图上滑动时，其参数不会发生改变，每个卷积核的参数不同，每个卷积核可以看做提取不同角度的特征，因此能够得到更加细致全面的特征组合，同时卷积与传统前馈神经网络不同，它没有与输入特征图全连接，这大大减少了网络参数。此外为了防止网络层数加深出现梯度消失，强化模型非线性和保证中间层分布一致性，在多层卷积结构后添加了批归一化(Bach Normalization，BN)和Relu激活函数，同时还添加了残差连接模块使模型更加关注差异部分，减缓网络退化。上述过程如公式(9)-(11)所示：

其中，和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征，n表示卷积层数。

步骤四：将带有局部相关信息的两种数据特征和/>分别输入到Transformer模型，由于工业过程数据是具有时序性的，因此需要添加位置编码(Positional Encoding，PE)来补充顺序信息得到/>和/>具体公式如下：

其中，pos表示数据在时序序列中的位置，2i和2i+1分别表示向量中的偶数位置和奇数位置。

步骤五：将带有位置信息和局部相关信息的和/>分别输入到编码器中，利用多头自注意力机制来捕获数据的全局相关性。在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题，同时提高模型收敛速度。在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和/>(值)，每个子空间内只关注d_model/h＝d_v＝d_k个维度的信息，h为多头自注意力机制的头数，在每个子空间内先将Q_i和K_i的转置进行点积来计算每个特征间的注意力权重矩阵，再使用sofmax函数对注意力权重矩阵进行归一化，最后与V_i进行加权求和，则得到一个子空间内的特征之间关联性输出/>将每个子空间内的输出使用Concat函数进行拼接，再经过线性变换得到多头自注意机制的输出X_H，随后添加了残差连接模块来简化网络训练，减少网络退化。E述过程如公式(14)-(18)所示：

其中，表示经过多头注意力机制后带有全局信息的线性特征，和/>为线性变换矩阵，d_k＝d_v＝d_model/h，/>是缩放因子，它的引入是为了防止梯度过小和注意力权重分散，同样的可以得到经过多头注意力机制后带有全局信息的非线性特征/>

步骤六：将融合了局部信息和全局信息的两种数据特征和输入到前馈网络层，在多头自注意力机制中进行的都是线性变换，学习泛化能力不强，因此需要激活函数来强化学习，增强非线性。在前馈网络层前同样添加了LN层得到/>和/>首先经过层全连接层对d_model进行升维到d_ff，再利用Relu激活函数进行强化学习，随后再经过一层全连接层对d_ff降维到d_model得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征/>和/>上述过程如公式(19)-(21)所示：

其中，W₁、b₁、W₂和b₂为全连接层的参数，由模型训练得到。

步骤七：将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数，前一层编码器的输出为后一层编码器的输入。随后将和/>拼接得到最终输出特征/>使用全连接层对2d_model降维到1得到X_out∈R^N×1，再使用Sigmoid函数将X_out中的数值变化到[0，1]之间，若数值大于等于0.5，模型预测值为1，表示是故障样本，若数值小于0.5，模型预测值为0，表示是正常样本。上述过程如公式(22)-(24)所示：

步骤七：在Y和实际标签之间计算交叉熵损失函数，不断更新模型网络参数，保存性能最好的模型用于后续测试。

步骤八：故障检测阶段，过程如下：

1)采集工业过程中的新数据x^new∈R^N×m，按照公式(1)使用训练数据的均值先进行去均值化处理得到标准化数据X^new，随后按照公式(4)将将X^new与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>

2)将x^new∈R^N×m输入到训练好的SDAE模型中提取非线性特征得到

3)将和/>分别输入到训练阶段保存的模型进行故障检测。

通过该模型对新数据进行故障检测。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于特征提取和Tran_sf_orm_er模型的故障检测方法，并将该模型应用于工业过程故障检测

优点具体体现在：

(1)该方法利用主元分析法对数据进行降维降噪处理，提取工业过程数据中的线性特征；

(2)该方法利用堆叠降噪自编码器提取工业过程数据中的非线性特征；

(3)该方法利用卷积神经网络具有的局部连接和参数共享两个特性来提取局部信息，多个卷积层叠加可以扩大提取范围，每个卷积核的参数不同，每个卷积核可以看做提取不同角度的特征，因此能够得到更加细致全面的特征组合，卷积具有的两个特性使得其相比传统前馈神经网络具有更少的连接和网络参数，更容易训练，同时特征提取的性能并没有降低；

(4)该方法利用Pre-Ln结构来提高模型的收敛速度。

总之，该发明方法极大的提高的工业过程故障检测的准确率。

附图说明

图1为TE过程仿真系统结构图；

图2为本发明基于特征提取和Transformer模型的故障检测方法的流程图；

图3为本发明基于特征提取和Transformer模型的故障检测方法的架构图；

图4为本发明数据经过第一层和第四层卷积神经网络后的神经元表达；

图5为本发明数据经过SDAE后第一层和第四层卷积神经网络特征表达可视化分布图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明以真实工业化工过程的仿真系统得到的数据为例，TE过程仿真系统结构如图1所示，基于特征提取和Transformer模型的故障检测方法流程如图2所示，基于特征提取和Transformer模型的故障检测方法架构如图3所示。

具体实验步骤：

步骤一：采集工业过程中的样本数据。TE仿真系统中包括五种进料(A、B、C、D和E)，在两个平行反应中获得两种液体产物(G、H)和一种液体副产物(F)。TE数据中包括11个操纵变量和41个测量变量，因此每个数据有52维向量。TE仿真系统在每次运行时都会加入随机噪声，并且分为训练和测试来采集，采集间隔为3分钟，故障种类共21种，因此分别运行21次，其中训练数据每次运行25个小时，训练数据从故障引入时开始采集，因此每次实验只有480组故障数据；测试数据每次运行48小时，因此每次实验共960组测试数据，其中故障数据中前160组为正常数据，后800组为故障数据，系统还采集了两次正常工况下的数据，分别为500组和960组数据。将正常工况下的960组数据分别和每种故障的训练集组合作为训练集。训练集x∈R^N×m，其中m表示数据的变量数，在本实施例中m＝51；N表示采集的样本总数，在本实施例中N＝1440，利用主元分析法(Principal ComponentAnalysis，PCA)对数据x进行降维降噪处理，提取过程数据中的线性特征，PCA处理流程如公式(25)-(28)所示：

S＝COV(X) (2⁶)

u，v，u^T＝SVD(S) (2⁷)

X_pca＝XP (28)

其中，公式(1)是对数据x做去均值化处理，表示数据x的列均值，公式(2)是求去均值化后数据X的协方差矩阵S∈R^m×m，公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈R^m和奇异矩阵u∈R^m×1，假设取奇异值总和的85％作为主成分，本实施例中取95％作为主成分，则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈R^m×k，本实施例中k＝3，公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据X_pca∈R^N×k。

步骤二：利用堆叠降噪自编码器(Stacked DenoisingAuto-Encoder，SDAE)提取数据x中的非线性特征，SDAE处理流程如公式(29)-(32)所示：

Z＝W′Y+b′ (31)

其中，公式(5)是对数据x通过随机映射损坏为公式(6)是通过编码器将破坏输入/>映射为隐藏向量Y∈R^m×l，l表示隐藏层神经元个数，本实施例中l＝4，公式(7)是通过解码器将隐藏向量Y映射为重构向量Z，公式(8)表示SDAE的损失函数，重构向量Z需要尽可能地接近原始输入x来达到提取特征的作用，最终通过训练得到的隐藏向量Y∈R^m×l就是SDAE从数据x中提取到的非线性特征，标记为X_SDAE∈R^mxl

步骤三：将PCA提取到的线性特征X_pca∈R^N×k和SDAE提取到的非线性特征X_SDAE∈R^m×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中d_model为映射得到的维度，本实施例中d_model＝256。随后将/>和/>分别输入到多层卷积结构，利用卷积神经网络的局部连接的特性来提取数据的局部相关信息，因为卷积的长度和宽度往往是小于输入特征图的，因此卷积每次是和输入特征图的一部分进行计算，提取的是局部特征信息，多个卷积层叠加可以扩大提取范围，当单个卷积核在输入特征图上滑动时，其参数不会发生改变，每个卷积核的参数不同，每个卷积核可以看做提取不同角度的特征，因此能够得到更加细致全面的特征组合，同时卷积与传统前馈神经网络不同，它没有与输入特征图全连接，这大大减少了网络参数。此外为了防止网络层数加深出现梯度消失，强化模型非线性和保证中间层分布一致性，在多层卷积结构后添加了批归一化(Bach Normalization，aN)和Relu激活函数，同时还添加了残差连接模块使模型更加关注差异部分，减缓网络退化。上述过程如公式(33)-(35)所示：

其中，和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征，n表示卷积层数，本实施例中n＝4。

步骤五：将带有位置信息和局部相关信息的和/>分别输入到编码器中，利用多头自注意力机制来捕获数据的全局相关性。在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题，同时提高模型收敛速度。在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和/>(值)，每个子空间内只关注d_model/h＝d_v＝d_k个维度的信息，本实施例中d_v＝d_k＝64，h为多头自注意力机制的头数，本实施例中h＝4，在每个子空间内先将Q_i和K_i的转置进行点积来计算每个特征间的注意力权重矩阵，再使用softmax函数对注意力权重矩阵进行归一化，最后与V_i进行加权求和，则得到一个子空间内的特征之间关联性输出i∈[1，h]，将每个子空间内的输出使用Concat函数进行拼接，再经过线性变换得到多头自注意机制的输出X_H，随后添加了残差连接模块来简化网络训练，减少网络退化。上述过程如公式(38)-(42)所示：

步骤六：将融合了局部信息和全局信息的两种数据特征和输入到前馈网络层，在多头自注意力机制中进行的都是线性变换，学习泛化能力不强，因此需要激活函数来强化学习，增强非线性。在前馈网络层前同样添加了LN层得到/>和/>首先经过一层全连接层对d_model进行升维到d_ff，本实施例中d_ff＝512，，再利用_Relu激活函数进行强化学习，随后再经过一层全连接层对d_ff降维到d_model得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征/>和/>上述过程如公式(43)-(45)所示：

步骤七：将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数，本实施例中L＝2，前一层编码器的输出为后一层编码器的输入。随后将/>和/>拼接得到最终输出特征/>使用全连接层对2d_model降维到1得到X_out∈R^Nx1，再使用Sigmoid函数将X_out中的数值变化到[0，1]之间，若数值大于等于0.5，模型预测值为1，表示是故障样本，若数值小于0.5，模型预测值为0，表示是正常样本。上述过程如公式(46)-(48)所示：

步骤八：故障检测阶段，过程如下：

1)采集工业过程中的新数据x^new∈R^N×m，在本实施例中，引入测试数据，测试数据运行时间为48小时，采样间隔为3分钟，即采集960组测试样本数据。其中故障1是由A/C进料比率变化出现阶跃故障引起的，故障发生时刻为第161个样本并一直持续到最后。按照公式(25)使用训练数据的均值先进行去均值化处理得到标准化数据X^new，随后按照公式(28)将X^new与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>

3)将和/>分别输入到训练阶段保存的模型进行故障检测。仿真实验结果分析：

在本实施例中，故障1检测精确率、召回率和F1分数分别为0.93、1.00和0.96。通过结果可以看出，综合三个统计量，该发明的过程监测方法体现出了较好的故障检测性能

接下来对该发明的故障检测性能进行分析。图4表示故障1测试集中第120个到第200个样本在第一层和第四层卷积神经网络中的神经元表达，其中前40个样本为正常样本，后40个样本为故障样本，图中横轴表示样本数，纵轴表示全部卷积核个数，蓝色表示神经元被最大激活，黄色表示神经元没有激活。首先从第-层卷积层到第四层卷积层，图中蓝色部分越来越多，说明卷积层中神经元的激活程度越来越高；其次第一层卷积层中，正常样本区域的神经元少部分被激活，故障样本区域的神经元大部分被激活，说明此时卷积层重点学习故障样本信息，随着层数加深，正常样本区域的神经元激活程度越来越高，故障样本区域的神经元激活程度在第四层中有所下降，说明此时卷积层开始重点学习正常样本信息。综上所述，增加卷积层数可以扩大神经网络感受野，提取数据特征的区域变大，可以得到更全面的特征信息，同时也验证了多层卷积结构的设计思想的合理性，此外卷积神经网络可以从多角度提取数据局部特征，并且能够识别两种类别信号分别提取特征。

图5表示故障1测试集在SDAE后第一层卷积层和第四层卷积层的特征表达经过PCA降成2维后的分布，横轴表示第一个主成分，纵轴表示第二个主成分。首先第一层卷积层的特征表达可以看出，正常数据逐渐聚集但仍与故障数据线性不可分；其次第四层卷积中，两种信号几乎完全可分，这说明随着卷积层数的增加，模型的非线性表达能力在逐渐增强。综上所述，模型通过加深卷积神经网络的层数，将线性不可分特征映射到线性可分空间，也验证了多层卷积结构的设计思想的合理性。

综上所述，该发明的过程监测方法有效提高了故障检测性能，充分验证了该发明的过程监测方法的有效性和可行性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于特征提取和Transformer模型的故障检测方法，其特征在于，所述方法将该模型应用于工业过程故障检测，包括以下步骤：

步骤一：采集工业过程中N个样本数据x∈R^N×m，其中m表示数据的变量数，N表示采集的样本总数，利用主元分析法(Principal Component Analysis，PCA)对数据x进行降维降噪处理，提取过程数据中的线性特征，PCA处理流程如公式(1)-(4)所示：

S＝CoV(X) (2)

u，v，u^T＝SVD(S) (3)

X_pca＝XP (4)

其中，公式(1)是对数据x做去均值化处理，表示数据x的列均值，公式(2)是求去均值化后数据X的协方差矩阵S∈R^m×m，公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈R^m和奇异矩阵u∈R^m×1，假设取奇异值总和的85％作为主成分，则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈R^m×k，公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据X_pca∈R^N×k；

步骤二：利用堆叠降噪自编码器(Stacked Denoising Auto-Encoder，SDAE)提取数据x中的非线性特征，SDAE处理流程如公式(5)-(8)所示：

Z＝W’Y+b′ (7)

步骤三：将PCA提取到的线性特征X_pca∈R^N×k和SDAE提取到的非线性特征X_SDAE∈R^m×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中d_model为映射得到的维度；随后将/>和/>分别输入到多层卷积结构，利用卷积神经网络的局部连接的特性来提取数据的局部相关信息，因为卷积的长度和宽度往往是小于输入特征图的，因此卷积每次是和输入特征图的一部分进行计算，提取的是局部特征信息，多个卷积层叠加可以扩大提取范围，当单个卷积核在输入特征图上滑动时，其参数不会发生改变，每个卷积核的参数不同，每个卷积核可以看做提取不同角度的特征，因此能够得到更加细致全面的特征组合，同时卷积与传统前馈神经网络不同，它没有与输入特征图全连接，这大大减少了网络参数；此外为了防止网络层数加深出现梯度消失，强化模型非线性和保证中间层分布一致性，在多层卷积结构后添加了批归一化(Bach Normalization，BN)和Relu激活函数，同时还添加了残差连接模块使模型更加关注差异部分，减缓网络退化；上述过程如公式(9)-(11)所示：

其中，和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征，n表示卷积层数；

其中，pos表示数据在时序序列中的位置，2i和2i+1分别表示向量中的偶数位置和奇数位置；

步骤五：将带有位置信息和局部相关信息的和/>分别输入到编码器中，利用多头自注意力机制来捕获数据的全局相关性；在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题，同时提高模型收敛速度；在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和(值)，每个子空间内只关注d_model/h＝d_v＝d_k个维度的信息，h为多头自注意力机制的头数，在每个子空间内先将Q_i和K_i的转置进行点积来计算每个特征间的注意力权重矩阵，再使用softmax函数对注意力权重矩阵进行归一化，最后与V_i进行加权求和，则得到一个子空间内的特征之间关联性输出/>将每个子空间内的输出使用Concat函数进行拼接，再经过线性变换得到多头自注意机制的输出X_H，随后添加了残差连接模块来简化网络训练，减少网络退化；上述过程如公式(14)-(18)所示：

步骤六：将融合了局部信息和全局信息的两种数据特征和/>输入到前馈网络层，在多头自注意力机制中进行的都是线性变换，学习泛化能力不强，因此需要激活函数来强化学习，增强非线性；在前馈网络层前同样添加了LN层得到和/>首先经过一层全连接层对d_model进行升维到d_ff，再利用Relu激活函数进行强化学习，随后再经过一层全连接层对d_ff降维到d_model得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征和/>上述过程如公式(19)-(21)所示：

其中，W₁、b₁、W₂和b₂为全连接层的参数，由模型训练得到；

步骤七：将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数，前一层编码器的输出为后一层编码器的输入；随后将和/>拼接得到最终输出特征/>使用全连接层对2d_model降维到1得到X_out∈R^N×1，再使用Sigmoid函数将X_out中的数值变化到[0，1]之间，若数值大于等于0.5，模型预测值为1，表示是故障样本，若数值小于0.5，模型预测值为0，表示是正常样本；上述过程如公式(22)-(24)所示：

步骤七：在Y和实际标签之间计算交叉熵损失函数，不断更新模型网络参数，保存性能最好的模型用于后续测试；

步骤八：故障检测阶段，过程如下：

1)采集工业过程中的新数据x^new∈R^N×m，按照公式(1)使用训练数据的均值先进行去均值化处理得到标准化数据X^new，随后按照公式(4)将X^new与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>

3)将和/>分别输入到训练阶段保存的模型进行故障检测；通过该模型对新数据进行故障检测。