CN117312821A - 一种基于特征提取和Transformer模型的故障检测方法 - Google Patents
一种基于特征提取和Transformer模型的故障检测方法 Download PDFInfo
- Publication number
- CN117312821A CN117312821A CN202311042804.3A CN202311042804A CN117312821A CN 117312821 A CN117312821 A CN 117312821A CN 202311042804 A CN202311042804 A CN 202311042804A CN 117312821 A CN117312821 A CN 117312821A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- layer
- convolution
- fault detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000004519 manufacturing process Methods 0.000 claims abstract description 22
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 230000015556 catabolic process Effects 0.000 claims description 6
- 238000006731 degradation reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- IJJWOSAXNHWBPR-HUBLWGQQSA-N 5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]-n-(6-hydrazinyl-6-oxohexyl)pentanamide Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCCCCC(=O)NN)SC[C@@H]21 IJJWOSAXNHWBPR-HUBLWGQQSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 239000000047 product Substances 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000009776 industrial production Methods 0.000 abstract description 4
- 238000007477 logistic regression Methods 0.000 abstract 1
- 238000012847 principal component analysis method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 8
- 238000004088 simulation Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001311 chemical methods and process Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000984082 Amoreuxia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003842 industrial chemical process Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000012263 liquid product Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Complex Calculations (AREA)
Abstract
一种基于特征提取和Transformer模型的故障检测方法,属于工业过程故障检测方法。首先采集工业生产过程中的数据,分别利用主元分析法和堆叠降噪自编码器对数据进行降维降噪处理,提取过程数据中的线性和非线性特征;其次将提取到的两种特征分别输入到多层卷积结构,利用卷积神经网络来挖掘数据的局部相关信息;随后将融合局部信息的两种特征输入到Transformer模型;最后将融合了局部信息和全局信息的两种特征进行拼接,模型通过逻辑回归得到预测结果。本发明有效解决复杂工业生产过程中存在的线性和非线性关系,以及Transformer模型存在的局部信息缺失和收敛速度缓慢的问题,提高了模型故障检测的性能,该模型提高了故障检测的准确性。
Description
技术领域
本发明涉及一种故障检测方法,尤其涉及一种基于特征提取和Transformer模型的故障检测方法。
背景技术
一个安全准确的故障检测和诊断(Fault Detection and Diagnosis,FDD)算法对于每个工业生产过程都是至关重要的。目前主流的FDD算法包括:机理建模、知识驱动建模和数据驱动建模。基于机理建模的方法主要通过构造观测器来估计系统输出进而实现对故障的检测与诊断,常用的方法有参数估计法、等价空间法和状态估计法等。基于知识驱动建模的方法主要通过现有的知识和一定的推理机制对化工过程进行故障检测和诊断,常用的方法有符号有向图、专家系统和故障树等。但是随着现代工业和计算机技术的快速发展,基于机理和知识驱动建模的方法已经不能满足现实工业生产的要求,计算机技术的发展使得大量的化工过程数据能够直接被记录并收集,基于数据驱动建模的方法在相关技术的支持下蓬勃发展。基于数据驱动建模的方法是利用工业过程中传感器收集到的历史数据直接建立模型,从而实现系统状态检测和诊断。基于数据驱动建模的方法可以进一步细分为统计方法、浅层学习方法和深度学习方法,统计方法和浅层学习方法在一些工业过程故障检测中取得了不错的成绩,但当数据中存在强非线性关系时,浅层结构无法有效处理,因此深度学习方法应运而生。
深度学习是一种具有多层表示法的表示学习方法,模型通常包含深层次结构,每层结构由多个简单的线性和非线性模块组成,可以拟合复杂的函数关系。深度学习用于故障检测和诊断可以克服浅层结构无法有效处理非线性关系的问题,充分学习工业过程数据中的强非线性关系,其中应用较广泛的深度学习方法有自动编码器(Auto-Encoder,AE)、深度置信网络(Deep Belief Network,DBN)、卷积神经网络(Convolutional NeuralNetwork,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等,在诸多研究中取得了不错的效果。
Transformer是由谷歌在2017年提出的完全基于注意力机制的深度学习模型,首先被应用于自然语言处理领域,在诸多任务上取得了显著的效果,因此各个领域有关Transformer模型的研究开始兴起,其中包括计算机视觉、音频处理和时间序列等。Transformer模型在各领域的应用中显现出了它的诸多优点,如其能够显著地捕获序列数据的长时程依赖性,解决顺序学习问题实现并行运算,模型融合多种模态信息能力强,模型中的多头自注意力机制能够实现特征信息的全面提取,模型可解释性强等。Transformer模型长时间建模的强大能力和诸多优点使得其在故障检测领域有着很好的应用前景,但仍有不足之处,如Tmnsformer模型忽略了数据之间的局部相关性和收敛速度缓慢等问题。因此在面对具有大规模、高维度、非线性等复杂数据特性的工业过程数据时,传统的Transformer模型很难取得良好的故障检测效果。所以现在急需一种有效的过程故障检测方法对现代的工业生产过程采集的大规模数据进行统一建模并进行故障检测。
发明内容
本发明的目的在于提供一种基于特征提取和Transformer模型的故障检测方法,针对工业过程中数据的大规模、高维度、非线性等复杂数据特性以及故障检测问题,本发明实现在数据大规模、高维度和非线性的情况下,对工业数据进行特征提取,提高故障检测的准确率。
本发明所采取的技术方案是:
一种基于特征提取和Transformer模型的故障检测方法,将该模型应用于工业过程故障检测,包括以下步骤:
步骤一:采集工业过程中N个样本数据x∈RN×m,其中m表示数据的变量数,N表示采集的样本总数,利用主元分析法(Principal ComponentAnalysis,PCA)对数据x进行降维降噪处理,提取过程数据中的线性特征,PCA处理流程如公式(1)-(4)所示:
S=COV(X) (2)
u,v,uT=SVD(S) (3)
Xpca=XP (4)
其中,公式(1)是对数据x做去均值化处理,表示数据x的列均值,公式(2)是求去均值化后数据X的协方差矩阵S∈Rm×m,公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈Rm和奇异矩阵u∈Rm×1,假设取奇异值总和的85%作为主成分,则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈Rm×k,公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据Xpca∈RN×k。
步骤二:利用堆叠降噪自编码器(Stacked DenoisingAuto-Encoder,SDAE)提取数据x中的非线性特征,SDAE处理流程如公式(5)-(8)所示:
Z=W′Y+b′ (7)
其中,公式(5)是对数据x通过随机映射损坏为公式(6)是通过编码器将破坏输入/>映射为隐藏向量Y∈Rm×l,l表示隐藏层神经元个数,公式(7)是通过解码器将隐藏向量Y映射为重构向量Z,公式(8)表示SDAE的损失函数,重构向量Z需要尽可能地接近原始输入x来达到提取特征的作用,最终通过训练得到的隐藏向量Y∈Rm×l就是SDAE从数据x中提取到的非线性特征,标记为XSDAE∈Rm×l
步骤三:将PCA提取到的线性特征Xpca∈RN×k和SDAE提取到的非线性特征XSDAE∈Rm×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中dmodel为映射得到的维度。随后将/>和/>分别输入到多层卷积结构,利用卷积神经网络的局部连接的特性来提取数据的局部相关信息,因为卷积的长度和宽度往往是小于输入特征图的,因此卷积每次是和输入特征图的一部分进行计算,提取的是局部特征信息,多个卷积层叠加可以扩大提取范围,当单个卷积核在输入特征图上滑动时,其参数不会发生改变,每个卷积核的参数不同,每个卷积核可以看做提取不同角度的特征,因此能够得到更加细致全面的特征组合,同时卷积与传统前馈神经网络不同,它没有与输入特征图全连接,这大大减少了网络参数。此外为了防止网络层数加深出现梯度消失,强化模型非线性和保证中间层分布一致性,在多层卷积结构后添加了批归一化(Bach Normalization,BN)和Relu激活函数,同时还添加了残差连接模块使模型更加关注差异部分,减缓网络退化。上述过程如公式(9)-(11)所示:
其中,和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征,n表示卷积层数。
步骤四:将带有局部相关信息的两种数据特征和/>分别输入到Transformer模型,由于工业过程数据是具有时序性的,因此需要添加位置编码(Positional Encoding,PE)来补充顺序信息得到/>和/>具体公式如下:
其中,pos表示数据在时序序列中的位置,2i和2i+1分别表示向量中的偶数位置和奇数位置。
步骤五:将带有位置信息和局部相关信息的和/>分别输入到编码器中,利用多头自注意力机制来捕获数据的全局相关性。在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题,同时提高模型收敛速度。在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和/>(值),每个子空间内只关注dmodel/h=dv=dk个维度的信息,h为多头自注意力机制的头数,在每个子空间内先将Qi和Ki的转置进行点积来计算每个特征间的注意力权重矩阵,再使用sofmax函数对注意力权重矩阵进行归一化,最后与Vi进行加权求和,则得到一个子空间内的特征之间关联性输出/>将每个子空间内的输出使用Concat函数进行拼接,再经过线性变换得到多头自注意机制的输出XH,随后添加了残差连接模块来简化网络训练,减少网络退化。E述过程如公式(14)-(18)所示:
其中,表示经过多头注意力机制后带有全局信息的线性特征,和/>为线性变换矩阵,dk=dv=dmodel/h,/>是缩放因子,它的引入是为了防止梯度过小和注意力权重分散,同样的可以得到经过多头注意力机制后带有全局信息的非线性特征/>
步骤六:将融合了局部信息和全局信息的两种数据特征和输入到前馈网络层,在多头自注意力机制中进行的都是线性变换,学习泛化能力不强,因此需要激活函数来强化学习,增强非线性。在前馈网络层前同样添加了LN层得到/>和/>首先经过层全连接层对dmodel进行升维到dff,再利用Relu激活函数进行强化学习,随后再经过一层全连接层对dff降维到dmodel得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征/>和/>上述过程如公式(19)-(21)所示:
其中,W1、b1、W2和b2为全连接层的参数,由模型训练得到。
步骤七:将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数,前一层编码器的输出为后一层编码器的输入。随后将和/>拼接得到最终输出特征/>使用全连接层对2dmodel降维到1得到Xout∈RN×1,再使用Sigmoid函数将Xout中的数值变化到[0,1]之间,若数值大于等于0.5,模型预测值为1,表示是故障样本,若数值小于0.5,模型预测值为0,表示是正常样本。上述过程如公式(22)-(24)所示:
步骤七:在Y和实际标签之间计算交叉熵损失函数,不断更新模型网络参数,保存性能最好的模型用于后续测试。
步骤八:故障检测阶段,过程如下:
1)采集工业过程中的新数据xnew∈RN×m,按照公式(1)使用训练数据的均值先进行去均值化处理得到标准化数据Xnew,随后按照公式(4)将将Xnew与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>
2)将xnew∈RN×m输入到训练好的SDAE模型中提取非线性特征得到
3)将和/>分别输入到训练阶段保存的模型进行故障检测。
通过该模型对新数据进行故障检测。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于特征提取和Transformer模型的故障检测方法,并将该模型应用于工业过程故障检测
优点具体体现在:
(1)该方法利用主元分析法对数据进行降维降噪处理,提取工业过程数据中的线性特征;
(2)该方法利用堆叠降噪自编码器提取工业过程数据中的非线性特征;
(3)该方法利用卷积神经网络具有的局部连接和参数共享两个特性来提取局部信息,多个卷积层叠加可以扩大提取范围,每个卷积核的参数不同,每个卷积核可以看做提取不同角度的特征,因此能够得到更加细致全面的特征组合,卷积具有的两个特性使得其相比传统前馈神经网络具有更少的连接和网络参数,更容易训练,同时特征提取的性能并没有降低;
(4)该方法利用Pre-Ln结构来提高模型的收敛速度。
总之,该发明方法极大的提高的工业过程故障检测的准确率。
附图说明
图1为TE过程仿真系统结构图;
图2为本发明基于特征提取和Transformer模型的故障检测方法的流程图;
图3为本发明基于特征提取和Transformer模型的故障检测方法的架构图;
图4为本发明数据经过第一层和第四层卷积神经网络后的神经元表达;
图5为本发明数据经过SDAE后第一层和第四层卷积神经网络特征表达可视化分布图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明以真实工业化工过程的仿真系统得到的数据为例,TE过程仿真系统结构如图1所示,基于特征提取和Transformer模型的故障检测方法流程如图2所示,基于特征提取和Transformer模型的故障检测方法架构如图3所示。
具体实验步骤:
步骤一:采集工业过程中的样本数据。TE仿真系统中包括五种进料(A、B、C、D和E),在两个平行反应中获得两种液体产物(G、H)和一种液体副产物(F)。TE数据中包括11个操纵变量和41个测量变量,因此每个数据有52维向量。TE仿真系统在每次运行时都会加入随机噪声,并且分为训练和测试来采集,采集间隔为3分钟,故障种类共21种,因此分别运行21次,其中训练数据每次运行25个小时,训练数据从故障引入时开始采集,因此每次实验只有480组故障数据;测试数据每次运行48小时,因此每次实验共960组测试数据,其中故障数据中前160组为正常数据,后800组为故障数据,系统还采集了两次正常工况下的数据,分别为500组和960组数据。将正常工况下的960组数据分别和每种故障的训练集组合作为训练集。训练集x∈RN×m,其中m表示数据的变量数,在本实施例中m=51;N表示采集的样本总数,在本实施例中N=1440,利用主元分析法(Principal ComponentAnalysis,PCA)对数据x进行降维降噪处理,提取过程数据中的线性特征,PCA处理流程如公式(25)-(28)所示:
S=COV(X) (26)
u,v,uT=SVD(S) (27)
Xpca=XP (28)
其中,公式(1)是对数据x做去均值化处理,表示数据x的列均值,公式(2)是求去均值化后数据X的协方差矩阵S∈Rm×m,公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈Rm和奇异矩阵u∈Rm×1,假设取奇异值总和的85%作为主成分,本实施例中取95%作为主成分,则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈Rm×k,本实施例中k=3,公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据Xpca∈RN×k。
步骤二:利用堆叠降噪自编码器(Stacked DenoisingAuto-Encoder,SDAE)提取数据x中的非线性特征,SDAE处理流程如公式(29)-(32)所示:
Z=W′Y+b′ (31)
其中,公式(5)是对数据x通过随机映射损坏为公式(6)是通过编码器将破坏输入/>映射为隐藏向量Y∈Rm×l,l表示隐藏层神经元个数,本实施例中l=4,公式(7)是通过解码器将隐藏向量Y映射为重构向量Z,公式(8)表示SDAE的损失函数,重构向量Z需要尽可能地接近原始输入x来达到提取特征的作用,最终通过训练得到的隐藏向量Y∈Rm×l就是SDAE从数据x中提取到的非线性特征,标记为XSDAE∈Rmxl
步骤三:将PCA提取到的线性特征Xpca∈RN×k和SDAE提取到的非线性特征XSDAE∈Rm×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中dmodel为映射得到的维度,本实施例中dmodel=256。随后将/>和/>分别输入到多层卷积结构,利用卷积神经网络的局部连接的特性来提取数据的局部相关信息,因为卷积的长度和宽度往往是小于输入特征图的,因此卷积每次是和输入特征图的一部分进行计算,提取的是局部特征信息,多个卷积层叠加可以扩大提取范围,当单个卷积核在输入特征图上滑动时,其参数不会发生改变,每个卷积核的参数不同,每个卷积核可以看做提取不同角度的特征,因此能够得到更加细致全面的特征组合,同时卷积与传统前馈神经网络不同,它没有与输入特征图全连接,这大大减少了网络参数。此外为了防止网络层数加深出现梯度消失,强化模型非线性和保证中间层分布一致性,在多层卷积结构后添加了批归一化(Bach Normalization,aN)和Relu激活函数,同时还添加了残差连接模块使模型更加关注差异部分,减缓网络退化。上述过程如公式(33)-(35)所示:
其中,和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征,n表示卷积层数,本实施例中n=4。
步骤四:将带有局部相关信息的两种数据特征和/>分别输入到Transformer模型,由于工业过程数据是具有时序性的,因此需要添加位置编码(Positional Encoding,PE)来补充顺序信息得到/>和/>具体公式如下:
其中,pos表示数据在时序序列中的位置,2i和2i+1分别表示向量中的偶数位置和奇数位置。
步骤五:将带有位置信息和局部相关信息的和/>分别输入到编码器中,利用多头自注意力机制来捕获数据的全局相关性。在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题,同时提高模型收敛速度。在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和/>(值),每个子空间内只关注dmodel/h=dv=dk个维度的信息,本实施例中dv=dk=64,h为多头自注意力机制的头数,本实施例中h=4,在每个子空间内先将Qi和Ki的转置进行点积来计算每个特征间的注意力权重矩阵,再使用softmax函数对注意力权重矩阵进行归一化,最后与Vi进行加权求和,则得到一个子空间内的特征之间关联性输出i∈[1,h],将每个子空间内的输出使用Concat函数进行拼接,再经过线性变换得到多头自注意机制的输出XH,随后添加了残差连接模块来简化网络训练,减少网络退化。上述过程如公式(38)-(42)所示:
其中,表示经过多头注意力机制后带有全局信息的线性特征,和/>为线性变换矩阵,dk=dv=dmodel/h,/>是缩放因子,它的引入是为了防止梯度过小和注意力权重分散,同样的可以得到经过多头注意力机制后带有全局信息的非线性特征/>
步骤六:将融合了局部信息和全局信息的两种数据特征和输入到前馈网络层,在多头自注意力机制中进行的都是线性变换,学习泛化能力不强,因此需要激活函数来强化学习,增强非线性。在前馈网络层前同样添加了LN层得到/>和/>首先经过一层全连接层对dmodel进行升维到dff,本实施例中dff=512,,再利用Relu激活函数进行强化学习,随后再经过一层全连接层对dff降维到dmodel得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征/>和/>上述过程如公式(43)-(45)所示:
其中,W1、b1、W2和b2为全连接层的参数,由模型训练得到。
步骤七:将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数,本实施例中L=2,前一层编码器的输出为后一层编码器的输入。随后将/>和/>拼接得到最终输出特征/>使用全连接层对2dmodel降维到1得到Xout∈RNx1,再使用Sigmoid函数将Xout中的数值变化到[0,1]之间,若数值大于等于0.5,模型预测值为1,表示是故障样本,若数值小于0.5,模型预测值为0,表示是正常样本。上述过程如公式(46)-(48)所示:
步骤七:在Y和实际标签之间计算交叉熵损失函数,不断更新模型网络参数,保存性能最好的模型用于后续测试。
步骤八:故障检测阶段,过程如下:
1)采集工业过程中的新数据xnew∈RN×m,在本实施例中,引入测试数据,测试数据运行时间为48小时,采样间隔为3分钟,即采集960组测试样本数据。其中故障1是由A/C进料比率变化出现阶跃故障引起的,故障发生时刻为第161个样本并一直持续到最后。按照公式(25)使用训练数据的均值先进行去均值化处理得到标准化数据Xnew,随后按照公式(28)将Xnew与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>
2)将xnew∈RN×m输入到训练好的SDAE模型中提取非线性特征得到
3)将和/>分别输入到训练阶段保存的模型进行故障检测。仿真实验结果分析:
在本实施例中,故障1检测精确率、召回率和F1分数分别为0.93、1.00和0.96。通过结果可以看出,综合三个统计量,该发明的过程监测方法体现出了较好的故障检测性能
接下来对该发明的故障检测性能进行分析。图4表示故障1测试集中第120个到第200个样本在第一层和第四层卷积神经网络中的神经元表达,其中前40个样本为正常样本,后40个样本为故障样本,图中横轴表示样本数,纵轴表示全部卷积核个数,蓝色表示神经元被最大激活,黄色表示神经元没有激活。首先从第-层卷积层到第四层卷积层,图中蓝色部分越来越多,说明卷积层中神经元的激活程度越来越高;其次第一层卷积层中,正常样本区域的神经元少部分被激活,故障样本区域的神经元大部分被激活,说明此时卷积层重点学习故障样本信息,随着层数加深,正常样本区域的神经元激活程度越来越高,故障样本区域的神经元激活程度在第四层中有所下降,说明此时卷积层开始重点学习正常样本信息。综上所述,增加卷积层数可以扩大神经网络感受野,提取数据特征的区域变大,可以得到更全面的特征信息,同时也验证了多层卷积结构的设计思想的合理性,此外卷积神经网络可以从多角度提取数据局部特征,并且能够识别两种类别信号分别提取特征。
图5表示故障1测试集在SDAE后第一层卷积层和第四层卷积层的特征表达经过PCA降成2维后的分布,横轴表示第一个主成分,纵轴表示第二个主成分。首先第一层卷积层的特征表达可以看出,正常数据逐渐聚集但仍与故障数据线性不可分;其次第四层卷积中,两种信号几乎完全可分,这说明随着卷积层数的增加,模型的非线性表达能力在逐渐增强。综上所述,模型通过加深卷积神经网络的层数,将线性不可分特征映射到线性可分空间,也验证了多层卷积结构的设计思想的合理性。
综上所述,该发明的过程监测方法有效提高了故障检测性能,充分验证了该发明的过程监测方法的有效性和可行性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (1)
1.一种基于特征提取和Transformer模型的故障检测方法,其特征在于,所述方法将该模型应用于工业过程故障检测,包括以下步骤:
步骤一:采集工业过程中N个样本数据x∈RN×m,其中m表示数据的变量数,N表示采集的样本总数,利用主元分析法(Principal Component Analysis,PCA)对数据x进行降维降噪处理,提取过程数据中的线性特征,PCA处理流程如公式(1)-(4)所示:
S=CoV(X) (2)
u,v,uT=SVD(S) (3)
Xpca=XP (4)
其中,公式(1)是对数据x做去均值化处理,表示数据x的列均值,公式(2)是求去均值化后数据X的协方差矩阵S∈Rm×m,公式(3)是对协方差矩阵S做奇异值分解得到它的奇异值v∈Rm和奇异矩阵u∈Rm×1,假设取奇异值总和的85%作为主成分,则满足条件的前k个奇异值对应的基向量组成降维矩阵P∈Rm×k,公式(4)是将标准化数据X与降维矩阵P相乘得到PCA处理后的数据Xpca∈RN×k;
步骤二:利用堆叠降噪自编码器(Stacked Denoising Auto-Encoder,SDAE)提取数据x中的非线性特征,SDAE处理流程如公式(5)-(8)所示:
Z=W’Y+b′ (7)
其中,公式(5)是对数据x通过随机映射损坏为公式(6)是通过编码器将破坏输入/>映射为隐藏向量Y∈Rm×l,l表示隐藏层神经元个数,公式(7)是通过解码器将隐藏向量Y映射为重构向量Z,公式(8)表示SDAE的损失函数,重构向量Z需要尽可能地接近原始输入x来达到提取特征的作用,最终通过训练得到的隐藏向量Y∈Rm×l就是SDAE从数据x中提取到的非线性特征,标记为XSDAE∈Rm×l
步骤三:将PCA提取到的线性特征Xpca∈RN×k和SDAE提取到的非线性特征XSDAE∈Rm×l分别通过全连接神经网络(Fully Connected Neural Network,FC)映射至高维空间得到和/>其中dmodel为映射得到的维度;随后将/>和/>分别输入到多层卷积结构,利用卷积神经网络的局部连接的特性来提取数据的局部相关信息,因为卷积的长度和宽度往往是小于输入特征图的,因此卷积每次是和输入特征图的一部分进行计算,提取的是局部特征信息,多个卷积层叠加可以扩大提取范围,当单个卷积核在输入特征图上滑动时,其参数不会发生改变,每个卷积核的参数不同,每个卷积核可以看做提取不同角度的特征,因此能够得到更加细致全面的特征组合,同时卷积与传统前馈神经网络不同,它没有与输入特征图全连接,这大大减少了网络参数;此外为了防止网络层数加深出现梯度消失,强化模型非线性和保证中间层分布一致性,在多层卷积结构后添加了批归一化(Bach Normalization,BN)和Relu激活函数,同时还添加了残差连接模块使模型更加关注差异部分,减缓网络退化;上述过程如公式(9)-(11)所示:
其中,和/>分别表示经过多层卷积结构后带有局部相关信息的两种数据特征,n表示卷积层数;
步骤四:将带有局部相关信息的两种数据特征和/>分别输入到Transformer模型,由于工业过程数据是具有时序性的,因此需要添加位置编码(Positional Encoding,PE)来补充顺序信息得到/>和/>具体公式如下:
其中,pos表示数据在时序序列中的位置,2i和2i+1分别表示向量中的偶数位置和奇数位置;
步骤五:将带有位置信息和局部相关信息的和/>分别输入到编码器中,利用多头自注意力机制来捕获数据的全局相关性;在多头自注意力机制前添加了层规范化(Layer Normalization,LN)得到/>和/>来减少“协变量偏移”问题,同时提高模型收敛速度;在多头自注意力机制中首先通过多个不同的线性变换将/>和/>转化为不同子空间内的/>(查询)、/>(键值)和(值),每个子空间内只关注dmodel/h=dv=dk个维度的信息,h为多头自注意力机制的头数,在每个子空间内先将Qi和Ki的转置进行点积来计算每个特征间的注意力权重矩阵,再使用softmax函数对注意力权重矩阵进行归一化,最后与Vi进行加权求和,则得到一个子空间内的特征之间关联性输出/>将每个子空间内的输出使用Concat函数进行拼接,再经过线性变换得到多头自注意机制的输出XH,随后添加了残差连接模块来简化网络训练,减少网络退化;上述过程如公式(14)-(18)所示:
其中,表示经过多头注意力机制后带有全局信息的线性特征,和/>为线性变换矩阵,dk=dv=dmodel/h,/>是缩放因子,它的引入是为了防止梯度过小和注意力权重分散,同样的可以得到经过多头注意力机制后带有全局信息的非线性特征/>
步骤六:将融合了局部信息和全局信息的两种数据特征和/>输入到前馈网络层,在多头自注意力机制中进行的都是线性变换,学习泛化能力不强,因此需要激活函数来强化学习,增强非线性;在前馈网络层前同样添加了LN层得到和/>首先经过一层全连接层对dmodel进行升维到dff,再利用Relu激活函数进行强化学习,随后再经过一层全连接层对dff降维到dmodel得到前馈网络层的输出/>和/>最后经过残差连接得到经过编码器后的两种数据特征和/>上述过程如公式(19)-(21)所示:
其中,W1、b1、W2和b2为全连接层的参数,由模型训练得到;
步骤七:将经过编码器后的两个数据特征和/>再次执行步骤五、六L次得到经过Transformer模型后的数据/>和/>L为Transformer模型中编码器的层数,前一层编码器的输出为后一层编码器的输入;随后将和/>拼接得到最终输出特征/>使用全连接层对2dmodel降维到1得到Xout∈RN×1,再使用Sigmoid函数将Xout中的数值变化到[0,1]之间,若数值大于等于0.5,模型预测值为1,表示是故障样本,若数值小于0.5,模型预测值为0,表示是正常样本;上述过程如公式(22)-(24)所示:
步骤七:在Y和实际标签之间计算交叉熵损失函数,不断更新模型网络参数,保存性能最好的模型用于后续测试;
步骤八:故障检测阶段,过程如下:
1)采集工业过程中的新数据xnew∈RN×m,按照公式(1)使用训练数据的均值先进行去均值化处理得到标准化数据Xnew,随后按照公式(4)将Xnew与训练数据的降维矩阵P相乘得到PCA提取到的线性特征/>
2)将xnew∈RN×m输入到训练好的SDAE模型中提取非线性特征得到
3)将和/>分别输入到训练阶段保存的模型进行故障检测;通过该模型对新数据进行故障检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042804.3A CN117312821A (zh) | 2023-08-18 | 2023-08-18 | 一种基于特征提取和Transformer模型的故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042804.3A CN117312821A (zh) | 2023-08-18 | 2023-08-18 | 一种基于特征提取和Transformer模型的故障检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117312821A true CN117312821A (zh) | 2023-12-29 |
Family
ID=89254307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311042804.3A Pending CN117312821A (zh) | 2023-08-18 | 2023-08-18 | 一种基于特征提取和Transformer模型的故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312821A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117930028A (zh) * | 2024-03-21 | 2024-04-26 | 成都赛力斯科技有限公司 | 新能源车辆电池热失效的预测方法、系统、设备及介质 |
CN117997605A (zh) * | 2024-01-16 | 2024-05-07 | 中山大学 | 一种网络异常检测方法、装置、设备和介质 |
-
2023
- 2023-08-18 CN CN202311042804.3A patent/CN117312821A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117997605A (zh) * | 2024-01-16 | 2024-05-07 | 中山大学 | 一种网络异常检测方法、装置、设备和介质 |
CN117930028A (zh) * | 2024-03-21 | 2024-04-26 | 成都赛力斯科技有限公司 | 新能源车辆电池热失效的预测方法、系统、设备及介质 |
CN117930028B (zh) * | 2024-03-21 | 2024-05-17 | 成都赛力斯科技有限公司 | 新能源车辆电池热失效的预测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiao et al. | Residual joint adaptation adversarial network for intelligent transfer fault diagnosis | |
AU2020103905A4 (en) | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning | |
CN114386521B (zh) | 时间序列数据的异常检测方法、系统、设备和存储介质 | |
CN117312821A (zh) | 一种基于特征提取和Transformer模型的故障检测方法 | |
Si et al. | Unsupervised deep transfer learning with moment matching: A new intelligent fault diagnosis approach for bearings | |
Chen et al. | One-dimensional convolutional neural network-based active feature extraction for fault detection and diagnosis of industrial processes and its understanding via visualization | |
Wu et al. | A transformer-based approach for novel fault detection and fault classification/diagnosis in manufacturing: A rotary system application | |
CN112580263A (zh) | 基于时空特征融合的涡扇发动机剩余使用寿命预测方法 | |
Zhang et al. | Knowledge distilling based model compression and feature learning in fault diagnosis | |
CN116465623B (zh) | 一种基于稀疏Transformer的齿轮箱寿命预测方法 | |
Zhang et al. | Gated recurrent unit-enhanced deep convolutional neural network for real-time industrial process fault diagnosis | |
CN110110809A (zh) | 基于机器故障诊断的模糊自动机的构建方法 | |
Xu et al. | Global attention mechanism based deep learning for remaining useful life prediction of aero-engine | |
Xiu et al. | Deep canonical correlation analysis using sparsity-constrained optimization for nonlinear process monitoring | |
CN115204272A (zh) | 基于多采样率数据的工业系统故障诊断方法与设备 | |
Liu et al. | Counterfactual-augmented few-shot contrastive learning for machinery intelligent fault diagnosis with limited samples | |
CN118296452A (zh) | 一种基于Transformer模型优化的工业设备故障诊断方法 | |
CN117034139A (zh) | 一种基于模型融合的化工过程故障诊断方法 | |
Zhang et al. | A flexible monitoring framework via dynamic-multilayer graph convolution network | |
Liu et al. | A novel transfer CNN with spatiotemporal input for accurate nuclear power fault diagnosis under different operating conditions | |
Fu et al. | Supervised Contrastive Learning based Dual-Mixer Model for Remaining Useful Life Prediction | |
CN115578325A (zh) | 一种基于通道注意配准网络的图像异常检测方法 | |
CN115146689A (zh) | 一种基于深度学习的动力系统高维测量数据降维方法 | |
CN116451063A (zh) | 一种基于主元分析法和卷积模型工业过程故障检测方法 | |
CN117992863B (zh) | 基于可解释平稳小波包卷积网络的旋转机械故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |