CN116125923B - 基于混合变量字典学习的混杂工业过程监测方法和系统 - Google Patents
基于混合变量字典学习的混杂工业过程监测方法和系统 Download PDFInfo
- Publication number
- CN116125923B CN116125923B CN202310024018.4A CN202310024018A CN116125923B CN 116125923 B CN116125923 B CN 116125923B CN 202310024018 A CN202310024018 A CN 202310024018A CN 116125923 B CN116125923 B CN 116125923B
- Authority
- CN
- China
- Prior art keywords
- variable
- data
- dictionary
- discrete
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012544 monitoring process Methods 0.000 title claims abstract description 66
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 58
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 25
- 230000005856 abnormality Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000003723 Smelting Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000011701 zinc Substances 0.000 description 3
- 229910052725 zinc Inorganic materials 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010978 in-process monitoring Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
本发明公开了一种基于混合变量字典学习的混杂工业过程监测方法和系统,方法:获取混杂工业过程混合变量的历史监测数据构建训练数据集;构建离散字典以获得离散数据集的标签矩阵;采用LC‑KSVD方法构建优化问题,求解连续字典、线性变换矩阵、分类器参数和稀疏编码;计算每个样本的连续变量数据和离散变量数据的重构误差,及重构阈值;在线获取实时监测数据,根据连续字典计算其连续变量的稀疏编码,并计算连续变量和离散变量的重构误差;将两种变量数据的重构误差分别与对应阈值比较,判断两类变量各自是否出现数据异常,判断混杂工业过程当前状况。在缺乏先验知识导致数据的分布情况未知时,本发明仍能更全面地识别出工业过程各种故障。
Description
技术领域
本发明属于工业过程监测技术领域,具体涉及一种基于混合变量字典学习的混杂工业过程监测方法和系统。
背景技术
随着工业技术的发展与进步,现代工业过程日趋复杂,即使发生一个很小的故障也有可能导致严重的后果。基于对安全性和可靠性的要求,过程监测已成为工业生产领域的研究热点,其通过准确监测系统的运行状态,及时发现并排除故障。
经过数十年的研究,许多过程监测的方法被提出,通常将它们分为:基于模型的方法、基于知识的方法和数据驱动的方法。近些年来,字典学习作为一种具有代表性的数据驱动方法,在过程监测问题中广受关注。对于不同的监测目标,学者们基于字典学习的方法展开了广泛的研究。为了解决多工况下非高斯过程的性能监测问题,Peng等人提出了一种多模式过程监控与故障检测的字典学习方法。Huang等人提出一种用于过程监控的分布式字典学习方法,可高效检测高维过程的微小故障。
上述过程监测方法在各自的应用领域都取得了良好的效果,但它们几乎全部应用于处理连续变量,无法用于监测同时含有连续变量和离散变量的混杂系统。然而,现代工业过程中越来越多表示系统状态的离散变量也被采集到。例如,一些应用工业现场的传感器装置,像气体分析仪、超限报警温度记录仪等测量装置均有依据工艺需求设定的安全值,超过时发出的离散信号为1,其余时刻为0。同时根据在中国某冶炼厂的调研情况,其焙烧炉DCS系统的离散变量的数目占总变量数目的40%以上。实际上,不仅连续变量具有监测意义,离散变量也携带十分重要的信息,不可忽略。通常工业过程采集到的数据与系统的状态有着较强的关联,数据特征的变化反映了系统的状态变化。此外,当连续变量和离散变量同时出现时,一般认为二者具有强相关性。例如,在城市供水系统中,用户水阀的开闭直接影响到供水管道的流量有无,水阀的打开程度也和流量的大小有着直接关联。连续变量和离散变量并称为混合变量,当工业数据中同时出现混合变量时,即有理由假设它们之间存在强相关性,在同一模式下有其特定的匹配关系。
基于上述关于混合变量和系统状态的相关分析,本发明将混杂系统(同时出现连续变量和离散变量的系统称为混杂系统)中的变量异常定义为连续变量异常、离散变量异常和变量失配异常,具体描述如下:
(1)连续变量异常:采集到的连续数据不同于正常数据的变化规律;
(2)离散变量异常:采集到的离散变量组合不符合当前工作模式或系统状态的设定
(3)变量失配异常:在固定的模式或状态下,同一时间序列的连续变量和离散变量的匹配关系发生了变化。
根据故障定义和描述,目前大部分的监测方法在数据筛选时将离散变量舍弃,而仅挑选出连续变量并用于过程监测,这样的做法忽略了离散变量所带来的有用信息,可能造成一些故障的漏报。现有的一些混合变量监测方法虽然同时考虑连续变量和离散变量,但忽略了二者之间的相关性关系,当连续变量和离散变量相关性发生失配时,无法作出有效判断。此外,目前不少监测方法需要预先对数据的分布进行假设,无法适用于更一般的工业过程。
发明内容
本发明提供一种基于混合变量字典学习的混杂工业过程监测方法和系统,在缺乏先验知识导致数据的分布情况未知时,仍能更全面地识别出工业过程的各种故障。
为实现上述技术目的,本发明采用如下技术方案:
一种基于混合变量字典学习的混杂工业过程监测方法,包括:
步骤1,获取混杂工业过程混合变量的历史监测数据构建训练数据集Y∈RN×M;其中,N为混合变量的总个数,M为训练数据集包括的样本数量;所述混合变量基于数据类型包括NC个连续变量和ND个离散变量,由NC个连续变量的历史监测数据组成连续数据集YC,由ND个离散变量的历史监测数据组成离散数据集YD;
步骤2,构建完备的离散字典φD,并根据离散字典φD获得离散数据集YD的标签矩阵H;
步骤3,采用LC-KSVD方法构建如下优化问题(2),并求解其中的连续字典φC、线性变换矩阵A、分类器参数W和连续数据集YC对应的稀疏编码矩阵X:
式中,Q为稀疏编码判决矩阵,α和β为控制系数,i表示稀疏编码矩阵X的列数编号,xi表示稀疏编码矩阵X的第i列向量,T为字典稀疏度;
步骤4,对于每个样本的连续变量数据YC,j,计算其重构误差RC,j;对于每个样本的离散变量数据YD,j,通过共享稀疏编码xj并利用分类器模型估计其标签向量hj,再根据标签向量hj和离散字典φD计算其重构数据YDre,j及重构误差RD,j;并采用核密度估计算法计算连续变量的重构阈值RCtr和离散变量的重构阈值RDtr;
步骤5,在线获取混杂工业过程混合变量的实时监测数据ynew,根据连续字典φC计算其连续变量数据yCnew的稀疏编码xnew;以及按步骤4相同方法,计算其连续变量数据yCnew的重构误差RCnew和离散变量数据yDnew的重构误差RDnew;
步骤6,将实时监测数据的重构误差RCnew、RDnew,分别与对应变量的重构阈值RCtr、RDtr进行比较,判断连续变量和连续变量各自是否出现数据异常,进而判断混杂工业过程当前状况。
本发明从数据驱动的角度出发,首先对数据做出了假设,即认为连续变量和离散变量之间存在较强的相关性,共享相同的标签。方法层面,受到字典学习的启发,本发明混合变量字典学习(HVDL)的方法,首先为离散数据单独设计离散字典,接下来用LC-KSVD来训练连续字典以及分类器参数,以此表示连续数据并间接实现离散变量数据的重构。在线监测时,将连续数据和离散数据各自的重构误差与训练阶段的重构误差阈值相比较,达到混合变量故障检测的目的。由于字典学习本身的优势,无需对数据分布进行假设,所以在缺乏先验知识时仍有较好的效果。
进一步地,所述完备的离散字典,其每个字典列原子对应一种离散变量的组合方式,使用二进制数表示,所有字典列原子不重复。
进一步地,标签矩阵H的计算式为:
YD=φD·H
其中,标签矩阵H的每个列向量为离散数据集YD中第i个样本的标签向量hi,代表该样本所属类别。
进一步地,求解步骤3中优化问题(2)的方法为:
步骤3.1,将优化问题(2)整理为如下优化问题(3):
步骤3.2,令且/>将优化问题(3)重新定义为:
步骤3.3,通过K-SVD算法求解优化问题(4)得到新定义字典φCnew和稀疏编码X,且对新定义字典φCnew和稀疏编码X进行交叉迭代优化得到;
步骤3.4,将迭代优化最终得到的新定义字典φCnew按其定义拆分获得φC、W、A。
进一步地,对新定义字典φCnew和稀疏编码X的每次迭代优化过程中:
(1)使用正交匹配追踪算法求解稀疏编码X时,将新定义字典φCnew固定且取上一步更新后的值;
(2)更新新定义字典φCnew时,将稀疏编码X固定且取上一步更新后的值,得到优化问题:
设φCnew,j代表新定义字典φCnew的第j个原子,则新定义字典φCnew表示为:
与此同时,设代表稀疏编码X的第i行,则稀疏编码X表示为:
则式(5)改写为:
假设则式(8)改写为:
在求解过程中,利用丢弃零条目的来代替式(9)的Ej,以使求得的新的/>具备稀疏性,对应的/>代替丢弃零条目的/>则新定义字典φCnew和稀疏编码X迭代优化的过程描述为:
对得到的进行奇异值SVD分解,那么:
此时更新φCnew,j和的过程如下:
最后,利用取代/>中的非零值,对字典φCnew的每一列均重复上述公式(11)和公式(12)的操作,直至完成整个字典的一次更新。
进一步地,连续变量数据YC,j的重构误差RC,j的计算式为:
其中,xj为连续变量数据YC,j对应的稀疏编码;
标签向量hj的计算方法为:
首先,将稀疏编码xj作为基于分类器参数W的分类器模型的输入,估计得到类标签向量lj:
lj=Wxj(15)
然后对类标签lj进行硬阈值处理得到硬标签:比较类标签列向量lj中各元素的大小,将最大的元素用1取代,其余元素用0取代,将得到的标签向量用hj表示:
hj=[h1,...,hi,...,hm]T
重构数据YDre,j及重构误差RD,j的计算方法为:
YDre,j=φDhj(17)
进一步地,根据连续字典φC计算连续变量数据yCnew的稀疏编码xnew的优化模型为:
其中,T1表示稀疏编码的稀疏度。
进一步地,步骤6中:
若RCnew>RCtr,则判定连续变量出现数据异常,混杂工业过程当前发生连续变量表征的故障;否则判定连续变量未出现数据异常,混杂工业过程当前未发生连续变量表征的故障;
若RDnew>RDtr,则判定离散变量出现数据异常,混杂工业过程当前发生离散变量表征的故障;否则判定离散变量未出现数据异常,混杂工业过程当前未发生离散变量表征的故障;
若连续变量和离散变量均未出现数据异常,且两者的关系处于匹配状态,则混杂工业过程当前处于正常状态;若连续变量和离散变量均未出现数据异常,但是两者的关系处于失配状态,则表示混杂工业过程当前出现失配异常。
一种基于混合变量字典学习的混杂工业过程监测系统,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项技术方案所述的基于混合变量字典学习的混杂工业过程监测方法。
有益效果
本发明可以应用于对数据分布未知、缺乏先验知识的混杂工业过程进行监测。该方法同时利用了连续变量和离散变量携带的信息,并且考虑了二者间的相关性,具有更好的数据表示能力和监测性能,可以对工业过程中的连续变量故障、离散变量故障、早期微小故障和模型失配故障都有很好的诊断效果。该算法可以打包成可执行文件布置在工业现场,通过读取现场数据,进行实时故障监测。
附图说明
图1是本申请实施例所述方法的总体流程图;
图2是其他先进的监测算法与本发明所提算法就实际工业过程的故障监测问题的效果对比图;其中(a)是PCA方法T2统计量和Q统计量的结果,图2(b)是字典学习的结果,图2(c)是HVM方法的结果,图2(d)是本发明方法的实验结果。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于混合变量字典学习的混杂工业过程监测方法,参考图1所示,包括以下步骤:
步骤1,获取混杂工业过程混合变量的历史监测数据构建训练数据集Y∈RN×M。
训练数据Y∈RN×M由M个N维的正常工作条件下的采样数据组成,前ND维数据由离散变量组成,后NC维数据由连续变量组成(N=ND+NC)。即混合数据被划分为离散的和连续的数据,表示为其中/>定义连续字典为φC,离散字典为φD。
步骤2,构建完备的离散字典φD,并根据离散字典φD获得离散数据集YD的标签矩阵H。
首先进行离散字典的构建。由于离散型数据状态固定,取值为有限集,所以离散字典可从正常数据中获得,得到的离散字典其中φD,l代表离散字典的第l列向量,为一类离散变量值的组合。同时希望字典列原子是不重复的,且是完备的即包含训练数据中离散变量所有可能出现的组合。例如,假设采集到的混合变量数据中,y1,y2是出现的二值变量,且取值为0或1,那么离散字典便可定义为:
接下来根据建立的离散字典φD获得训练集数据的标签矩阵H。正常状态下,要求离散字典是完备的,包含每一类组合,其不存在重复类,所以对于同一时间序列的离散数据,根据建立的离散字典φD,都有唯一一个标签向量h与之对应,h∈Rm×1,且只存在一个元素为1,其余元素均为0。某一标签向量非零元素的行数与其所属的离散时间序列数据在离散字典矩阵中的列数相照应。将所有标签向量hi合并为标签矩阵H,H∈Rm×M,其中M为训练集序列的长度
YD=φD·H (1)
步骤3,采用LC-KSVD方法构建如下优化问题(2)并求解其中的连续字典φC、线性变换矩阵A、分类器参数W和连续数据集YC对应的稀疏编码X。
得到标签矩阵后,本实施例采用LabelConsistentK-SVD(LC-KSVD)的思想,引出优化问题:
其中,是连续数据,/>是连续字典,X∈Rk×M是对应的稀疏编码矩阵,Q=[q1,...,qM]∈Rk×M是用于分类的连续数据/>的“判别”稀疏码,A∈Rk是一个线性变换矩阵,W∈Rm×k是分类器参数,H∈Rm×M是获得的标签,α和β控制相关项的相对贡献。表示重构误差,/>表示区分稀疏码误差,可以使稀疏码在类之间进行区分。/>表示分类误差,可以帮助学习最优分类器。
本实施例将上述LC-KSVD方法构建的优化问题转换为K-SVD方法的求解模式。将优化问题(2)可以改写为:
令且/>那么优化问题(3)可被重新定义为:
通过K-SVD算法可对优化问题(4)进行求解,该过程需要对字典更新和稀疏编码过程进行迭代优化。使用OrthogonalMatchingPursuit(OMP)求解X时,φCnew固定且取上一步更新后的值。更新φCnew时,将X固定:
假设φCnew,j代表字典φCnew的第j个原子,则字典φCnew可以表示为:
与此同时,假设代表稀疏编码X的第i行,那么稀疏编码X可以表示为:
(5)式可以改写为:
假设那么(8)式可以改写为:
在求解过程中,为了保证求得的新的的稀疏性,利用丢弃零条目的/>来代替原来的Ej,对应的/>代替丢弃零条目的/>那么,字典和稀疏编码迭代优化的过程可以描述为:
对得到的进行奇异值SVD分解,那么:
此时更新φCnew,j和的过程如下:
最后,利用取代/>中的非零值,对定义字典的φCnew的每一列均重复上述公式(11)和公式(12)的操作,直至完成整个字典的一次更新。在反复迭代优化后,得到训练后的字典并将之拆分为φC、W、A,并进行归一化处理。在实际求解过程中,关于φC、W、A的初始化值φC0、W0、A0的计算和归一化过程同标签一致性K-SVD(即LC-KSVD)。
步骤4,监测统计指标:对于每个样本的连续变量数据YC,j,计算其重构误差RC,j;对于每个样本的离散变量数据YD,j,通过共享稀疏编码xj并利用分类器模型估计其标签向量hj,再根据标签向量hj和离散字典φD计算其重构数据YDre,j及重构误差RD,j;并采用核密度估计算法计算连续变量的重构阈值RCtr和离散变量的重构阈值RDtr。具体如下解释。
通过上述优化问题求解分别得到了离散字典、连续字典和分类器参数,可以用于接下来的过程监测。一般而言,可以根据训练数据的重构误差用KDE方法来计算阈值,作为数据是否发生故障的判别标准。KDE的计算公式如下:
其中R代表重构误差,L代表数据长度,h是带宽,K(x)是核函数,f(R)是概率密度函数。
对于本发明方法而言,存在两个重构误差:RC,j表示第j个样本的连续变量数据的重构误差,RD,j表示第j个样本的离散变量数据的重构误差。在训练过程中,对于连续变量数据,用训练好的连续字典进行重构,得到的重构误差如下:
其中,YC,j代表第j个连续数据,xj是第j个连续数据对应的稀疏编码。
接下来利用稀疏编码xj作为学习到的分类器模型W的输入来估计类标签,用lj来表示
lj=Wxj (15)
之后对标签lj进行硬阈值处理,将之转化为硬标签,具体的做法是比较组成标签列向量lj各元素的大小,将最大的元素用1取代,其余元素用0取代,将得到的标签用hj来表示,即:
hj=[h1,...,hi,...,hm]T
根据公式(1),通过获得的预测标签可以重构离散数据,用YDre,j来表示,即:
YDre,j=φDhj(17)
离散部分的重构误差可以定义为:
对于训练数据,根据公式(14)和(18)计算出对应的重构误差后,利用KDE方法计算出连续数据重构阈值RCtr和离散数据重构阈值RDtr。
算法1总结了混合变量字典学习(HVDL)离线模型训练的详细步骤。
步骤5,在线获取混杂工业过程混合变量的实时监测数据ynew,根据连续字典φC计算其连续变量数据yCnew的稀疏编码xnew;以及按步骤4相同方法,计算其连续变量数据yCnew的重构误差RCnew和离散变量数据yDnew的重构误差RDnew。
首先介绍的是连续变量异常监测策略。对于新来的实时监测数据ynew,用连续字典进行表示其中的连续变量数据yCnew,根据稀疏表示的模型可得:
其中,yCnew代表新来数据中的连续部分,φC是训练好的连续字典,xnew是对应的稀疏编码,上式求解的方法与训练字典时求解稀疏编码的方法保持一致,得到稀疏编码后,计算重构误差:
其中,RCnew代表新数据中连续数据的重构误差。在假定训练数据都是正常的前提下,根据重构误差RCnew和连续数据的重构阈值RCtr可以判断新来数据的连续部分是否正常。如果RCnew高于阈值RCtr,则认为发生了连续故障;反之则认为没有发生连续故障。
接下来介绍离散变量异常监测策略。对于优化问题(19)的求解,得到了新来的连续变量数据yCnew的稀疏编码xnew,将之作为学习到的分类器模型W的输入来估计其类标签,用lnew来表示
lnew=Wxnew(21)
之后对标签lnew进行处理,通过公式(16)将之转化为硬标签,将得到的新标签用hnew来表示,通过公式(18)计算重构误差:
其中,yDnew代表新来数据中的离散数据,RDnew代表新数据中离散数据的重构误差。同连续数据的监测策略类似:如果RDnew高于阈值RDtr,则认为发生了离散故障;反之,则认为没有发生离散故障。
步骤6,将实时监测数据的重构误差RCnew、RDnew,分别与对应变量的重构阈值RCtr、RDtr进行比较,判断连续变量和连续变量各自是否出现数据异常,进而判断混杂工业过程当前状况。
若RCnew>RCtr,则判定连续变量出现数据异常,混杂工业过程当前发生连续故障;否则判定连续变量未出现数据异常,混杂工业过程当前未发生连续故障;
若RDnew>RDtr,则判定离散变量出现数据异常,混杂工业过程当前发生离散故障;否则判定离散变量未出现数据异常,混杂工业过程当前未发生离散故障;
若连续变量和离散变量均未出现数据异常,且两者的关系处于匹配状态,则混杂工业过程当前处于正常状态;否则混杂工业过程当前出现失配异常。本发明中,匹配状态是连续变量和离散变量均未发生异常,而且检测时是按照先后顺序的才认为是匹配状态,即先检测是否出现连续变量异常,若没有出现,可以利用连续变量的稀疏编码计算的标签去乘以离散字典进行离散变量异常的检测,若也没有出现异常,此时处于匹配状态,这个稀疏编码以及标签就是连续变量和离散变量的关系纽带,没有问题则处于匹配状态。按照这个检测顺序,有可能出现一种情况,即单独检测连续变量和离散变量均是正常的,但是按照上述的检测顺序出现离散变量异常,这时就算单独检测离散变量没有异常,但是二者的匹配关系已经破坏了,即发生失配异常。
以下算法2总结了HVDL在线监测部分的详细步骤。
本发明提出的混合变量字典学习(HVDL)的监测方法能够同时对连续和离散变量进行建模,并且考虑了二者之间的相关性,可以提高对混合变量的表达能力和对异常值的感知能力,尤其是变量失配异常。而且,该方法可以自适应地去学习蕴含数据本质特征的字典,从而无需对数据分布进行预先假设,适用于更一般的工业情况,可对异常值鲁棒。
下面再将本发明方法应用于锌冶炼焙烧炉过程监测进行实验来证明本发明方法的识别效果:
焙烧是锌冶炼的第一道工序,关系到产出锌的质量以及工艺的环保和能耗问题。实现焙烧过程的安全稳定运行十分重要,然而由于生产工艺复杂、各个变量频繁波动、设备故障频发等问题给过程监测提出了较高的要求。在这种情况下,通过中国某冶炼厂采集到的实际工业生产数据来验证本发明所提方法的有效性。该数据集取自焙烧炉的DCS系统,共计145个点位,其中离散二值点位数目达52个。2022年6月20日焙烧炉鼓风单元变频模块发生故障,通过机理分析,选取最相关的4个连续变量和2个离散变量进行监测。其中500个正常运行样本用于训练,故障前后各250个样本用于测试。
PCA方法、字典学习方法(DL),HYM方法以及本发明所提方法(HVDL)在焙烧炉中的定量结果(%)如下表所示:
对于该实验而言,故障存在一定的特点,即鼓风机变频模块发生故障后,仍可以采取定频模式去控制鼓风量,反映到鼓风量、鼓风压力等连续变量上的变化不是特别明显。仅仅监测连续变量很容易造成漏报,这也是PCA完全没有效果和DL效果不佳的原因。故障后期虽然连续变量和离散变量的数值即将接近正常,但是二者的相关性依旧处于失配状态,HVM虽然同时考虑了连续变量和离散变量,但是忽略了二者间的相关性关系,这也是HVM在后期无法识别故障的原因。本发明所提方法(HVDL)同时考虑了混合变量以及变量间的相关性,达到了较好的故障识别效果,FAR为0%,FDR达到99.6%。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (9)
1.一种基于混合变量字典学习的混杂工业过程监测方法,其特征在于,包括:
步骤1,获取混杂工业过程混合变量的历史监测数据构建训练数据集Y∈RN×M;其中,N为混合变量的总个数,M为训练数据集包括的样本数量;所述混合变量基于数据类型包括NC个连续变量和ND个离散变量,由NC个连续变量的历史监测数据组成连续数据集YC,由ND个离散变量的历史监测数据组成离散数据集YD;
步骤2,构建完备的离散字典φD,并根据离散字典φD获得离散数据集YD的标签矩阵H;
步骤3,采用LC-KSVD方法构建如下优化问题(2),并求解其中的连续字典φC、线性变换矩阵A、分类器参数W和连续数据集YC对应的稀疏编码矩阵X:
式中,Q为稀疏编码判决矩阵,α和β为控制系数,i表示稀疏编码矩阵X的列数编号,xi表示稀疏编码矩阵X的第i列向量,T为字典稀疏度;
步骤4,对于每个样本的连续变量数据YC,j,计算其重构误差RC,j;对于每个样本的离散变量数据YD,j,通过共享稀疏编码xj并利用分类器模型估计其标签向量hj,再根据标签向量hj和离散字典φD计算其重构数据YDre,j及重构误差RD,j;并采用核密度估计算法计算连续变量的重构阈值RCtr和离散变量的重构阈值RDtr;
步骤5,在线获取混杂工业过程混合变量的实时监测数据ynew,根据连续字典φC计算其连续变量数据yCnew的稀疏编码xnew;以及按步骤4相同方法,计算其连续变量数据yCnew的重构误差RCnew和离散变量数据yDnew的重构误差RDnew;
步骤6,将实时监测数据的重构误差RCnew、RDnew,分别与对应变量的重构阈值RCtr、RDtr进行比较,判断连续变量和连续变量各自是否出现数据异常,进而判断混杂工业过程当前状况。
2.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,所述完备的离散字典,其每个字典列原子对应一种离散变量的组合方式,使用二进制数表示,所有字典列原子不重复。
3.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,标签矩阵H的计算式为:
YD=φD·H
其中,标签矩阵H的每个列向量为离散数据集YD中第i个样本的标签向量hi,代表该样本所属类别。
4.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,求解步骤3中优化问题(2)的方法为:
步骤3.1,将优化问题(2)整理为如下优化问题(3):
步骤3.2,令且/>将优化问题(3)重新定义为:
步骤3.3,通过K-SVD算法求解优化问题(4)得到新定义字典φCnew和稀疏编码X,且对新定义字典φCnew和稀疏编码X进行交叉迭代优化得到;
步骤3.4,将迭代优化最终得到的新定义字典φCnew按其定义拆分获得φC、W、A。
5.根据权利要求4所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,对新定义字典φCnew和稀疏编码X的每次迭代优化过程中:
(1)使用正交匹配追踪算法求解稀疏编码X时,将新定义字典φCnew固定且取上一步更新后的值;
(2)更新新定义字典φCnew时,将稀疏编码X固定且取上一步更新后的值,得到优化问题:
设φCnew,j代表新定义字典φCnew的第j个原子,则新定义字典φCnew表示为:
与此同时,设代表稀疏编码X的第i行,则稀疏编码X表示为:
则式(5)改写为:
假设则式(8)改写为:
在求解过程中,利用丢弃零条目的来代替式(9)的Ej,以使求得的新的/>具备稀疏性,对应的/>代替丢弃零条目的/>则新定义字典φCnew和稀疏编码X迭代优化的过程描述为:
对得到的进行奇异值SVD分解,那么:
此时更新φCnew,j和的过程如下:
最后,利用取代/>中的非零值,对字典φCnew的每一列均重复上述公式(11)和公式(12)的操作,直至完成整个字典的一次更新。
6.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,连续变量数据YC,j的重构误差RC,j的计算式为:
其中,xj为连续变量数据YC,j对应的稀疏编码;
标签向量hj的计算方法为:
首先,将稀疏编码xj作为基于分类器参数W的分类器模型的输入,估计得到类标签向量lj:
lj=Wxj (15)
然后对类标签lj进行硬阈值处理得到硬标签:比较类标签列向量lj中各元素的大小,将最大的元素用1取代,其余元素用0取代,将得到的标签向量用hj表示:
hj=[h1,...,hi,...,hm]T
重构数据YDre,j及重构误差RD,j的计算方法为:
7.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,根据连续字典φC计算连续变量数据yCnew的稀疏编码xnew的优化模型为:
其中,T1表示稀疏编码的稀疏度。
8.根据权利要求1所述的基于混合变量字典学习的混杂工业过程监测方法,其特征在于,步骤6中:
若RCnew>RCtr,则判定连续变量出现数据异常,混杂工业过程当前发生连续变量表征的故障;否则判定连续变量未出现数据异常,混杂工业过程当前未发生连续变量表征的故障;
若RDnew>RDtr,则判定离散变量出现数据异常,混杂工业过程当前发生离散变量表征的故障;否则判定离散变量未出现数据异常,混杂工业过程当前未发生离散变量表征的故障;
若连续变量和离散变量均未出现数据异常,且两者的关系处于匹配状态,则混杂工业过程当前处于正常状态;若连续变量和离散变量均未出现数据异常,但是两者的关系处于失配状态,则表示混杂工业过程当前出现失配异常。
9.一种基于混合变量字典学习的混杂工业过程监测系统,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024018.4A CN116125923B (zh) | 2023-01-09 | 基于混合变量字典学习的混杂工业过程监测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024018.4A CN116125923B (zh) | 2023-01-09 | 基于混合变量字典学习的混杂工业过程监测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116125923A CN116125923A (zh) | 2023-05-16 |
CN116125923B true CN116125923B (zh) | 2024-06-21 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110403A (zh) * | 2021-05-25 | 2021-07-13 | 中南大学 | 一种基于稀疏约束的工业过程离群点检测与故障诊断方法和系统 |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110403A (zh) * | 2021-05-25 | 2021-07-13 | 中南大学 | 一种基于稀疏约束的工业过程离群点检测与故障诊断方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于多层字典学习的分类算法研究;赵杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215(第2期);第I140-189页 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784965B (zh) | 面向云环境下大规模多元时间序列数据异常检测方法 | |
Chai et al. | Enhanced random forest with concurrent analysis of static and dynamic nodes for industrial fault classification | |
Jiang et al. | Multimode process monitoring using variational Bayesian inference and canonical correlation analysis | |
Huang et al. | Nonlinear process monitoring using kernel dictionary learning with application to aluminum electrolysis process | |
Huang et al. | Structure dictionary learning-based multimode process monitoring and its application to aluminum electrolysis process | |
Auret et al. | Empirical comparison of tree ensemble variable importance measures | |
CN109146246B (zh) | 一种基于自动编码器和贝叶斯网络的故障检测方法 | |
CN111460728B (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
Chen et al. | Probabilistic contribution analysis for statistical process monitoring: A missing variable approach | |
CN113642754B (zh) | 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法 | |
CN110579967B (zh) | 基于同时降维和字典学习的过程监控方法 | |
Dong | A tutorial on nonlinear time-series data mining in engineering asset health and reliability prediction: concepts, models, and algorithms | |
Wu et al. | Locality preserving randomized canonical correlation analysis for real-time nonlinear process monitoring | |
CN109298633A (zh) | 基于自适应分块非负矩阵分解的化工生产过程故障监测方法 | |
Liu et al. | A unified probabilistic monitoring framework for multimode processes based on probabilistic linear discriminant analysis | |
Hu et al. | Low-rank reconstruction-based autoencoder for robust fault detection | |
Zhang et al. | Industrial process modeling and fault detection with recurrent Kalman variational autoencoder | |
Xu et al. | Industrial process fault detection and diagnosis framework based on enhanced supervised kernel entropy component analysis | |
Li et al. | A robust supervised subspace learning approach for output-relevant prediction and detection against outliers | |
CN111639304A (zh) | 基于Xgboost回归模型的CSTR故障定位方法 | |
Deng et al. | Incipient fault detection of nonlinear chemical processes based on probability-related randomized slow feature analysis | |
CN109324595B (zh) | 一种基于增量pca的工业监测数据分类方法 | |
Xu et al. | Global attention mechanism based deep learning for remaining useful life prediction of aero-engine | |
Li et al. | Knowledge enhanced ensemble method for remaining useful life prediction under variable working conditions | |
CN116125923B (zh) | 基于混合变量字典学习的混杂工业过程监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |