CN106843195A - 基于自适应集成半监督费舍尔判别的故障分类方法 - Google Patents
基于自适应集成半监督费舍尔判别的故障分类方法 Download PDFInfo
- Publication number
- CN106843195A CN106843195A CN201710056648.4A CN201710056648A CN106843195A CN 106843195 A CN106843195 A CN 106843195A CN 201710056648 A CN201710056648 A CN 201710056648A CN 106843195 A CN106843195 A CN 106843195A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- sample
- supervised
- omega
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract 3
- 238000000034 method Methods 0.000 claims abstract description 92
- 239000011159 matrix material Substances 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 59
- 238000005259 measurement Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000007619 statistical method Methods 0.000 abstract description 2
- 238000002156 mixing Methods 0.000 abstract 1
- 230000003252 repetitive effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 5
- 239000000498 cooling water Substances 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001311 chemical methods and process Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/024—Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于自适应的集成半监督费舍尔判别的工业过程故障分类方法,该方法在进行离线建模时,首先对无标签数据进行随机采样,与有标签数据组成半监督随机训练子集。在每次迭代训练子分类器时进行半监督费舍尔降维获得费舍尔判别矩阵,将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵及其标签作为融合算法K近邻的训练集。在线分类时,调用上述各个子分类器得到在线待测样本的后验概率矩阵,输入到带有权重的融合K近邻分类器中得到最终结果。相比现存方法,本发明提高了工业过程的故障分类效果,更有利于工业过程的自动化实施。
Description
技术领域
本发明属于工业过程控制领域,尤其涉及一种基于自适应集成半监督费舍尔判别的故障分类方法。
背景技术
过程监测技术作为过程系统工程的重要组成部分,对于保障过程安全及提高产品质量等现代流程工业的核心目标而言,具有重大的研究意义和应用价值。随着过程工业控制技术的不断发展和集散控制系统(DCS)在流程工业中得到了广泛应用,流程工业开始产生了海量的过程数据。因此,基于多变量统计和模式识别的过程监测技术受到了学术界和工业界的普遍关注,成为过程监测领域的研究热点。近二十年来,大量的研究成果和应用随之产生。
工业过程的实际数据往往是比理想的假设前提要复杂得多,例如现代工业过程广泛存在如故障数据数目与正常数据数目极其不均衡、训练样本的标签丢失或者变量丢失等问题。基于聚类或分类的方法在过程监测领域虽然已经取得了不错的进展,但是这些传统的模式识别的故障分类方法对于上述情况的表现并不尽人意。基于监督学习的故障分类方法在面对训练样本较少的情况,会出现学习得到的特征空间对少量样本过拟合的问题。然而,实际工业过程会有大量无标签数据伴随产生,这些数据含有大量对于分析过程信息的有用信息,如果能够有效利用这些信息,那么数据驱动的故障分类方法会得到更优的结果,因此半监督算法的引入是解决这一问题的重要途径。但实际问题是,半监督学习的表现并不稳定,在特定的数据下表现可能还不如有监督学习的效果。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。分类器融合中的度量层融合属于集成学习的一个分支。本发明采用将半监督学习和一种自适应的集成学习相结合的方法,通过半监督算法利用无标签数据中所包含的大量信息,用集成算法的泛化能力提高半监督算法表现不稳定的缺陷,两种算法的结合可以互为补充泛化出更稳定更准确的学习模型,提高工业过程故障分类的准确率。
发明内容
本发明的目的在于针对现有方法的不足,提供一种基于自适应集成半监督费舍尔判别的故障分类方法。
本发明的目的是通过以下技术方案来实现的:一种基于自适应集成半监督费舍尔判别的故障分类方法,包括以下步骤:
(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rni×m表示X满足ni×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。
(2)利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。
(3)从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为
(4)设定迭代次数即弱分类器个数为G,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型,初始权重均为1。
(5)在有标签数据矩阵集下,利用不同的分类器模型和参数,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R为实数集,Rg×(C+1)表示X满足g×(C+1)的二维分布并计算下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)和该次迭代所得子分类器的权重ωg,重复(4)、(5)两步骤,直至完成G次迭代。
(6)将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。
(7)在线收集新的过程数据Xnew,并对其进行预处理和归一化使得各个过程变量的均值为零,方差为1,得到分别采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵。
(8)将在线过程数据的度量层矩阵和之前得到的有标签数据度量层矩阵及其标签进行K近邻融合,得到待分类过程数据的最终分类结果。
本发明的有益效果是:本发明通过对不同的训练子集进行半监督费舍尔判别分类建模,并在每一次迭代时自适应的调整有标签数据的样本权重,最后对得到的度量层矩阵进行子分类器权重调整和K近邻融合得到分类结果。相比目前的其他故障分类方法,本发明不仅提高了工业过程的监测效果,增加了分类的准确性,使工业生产更加安全可靠,而且在很大程度上改善了单一故障分类方法的局限性,以及分类方法对过程知识的依赖性,增强了过程操作员对过程状态的掌握,更加有利于工业过程的自动化实施。
附图说明
图1为迭代次数G为7时的半监督费舍尔判别度量层融合算法(ESFDA)的分类结果图;
图2为迭代次数G为7时的自适应的半监督费舍尔判别度量层融合算法(Ada-ESFDA)的分类结果图。
具体实施方式
本发明针对工业过程的故障分类问题,该方法,首先在进行离线建模时对大量的无标签数据进行随机采样,与有标签数据组成若干个半监督随机训练子集。在每次迭代训练子分类器时进行自适应的有标签样本权重调整,然后进行半监督费舍尔降维,获得多个费舍尔判别矩阵(由r个费舍尔判别向量组成,r为降维后的维度),并将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵和对应的标签作为度量层融合算法K近邻的训练样本。在线分类时,调用上述各个半监督费舍尔判别分类器得到每个在线待测样本的后验概率矩阵,输入到带有不同子分类器权重的度量层融合K近邻分类器中得到最终的故障分类结果。
本发明采用的技术方案的主要步骤分别如下:
第一步利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rn×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rn×m表示X满足n×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1 ×(∑ni)。将这些数据存入历史数据库作为有标签数据集。
第二步利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq ×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。
第三步从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为
第四步选取合适的子分类器个数G,G的选取视具体工况数据表现而定,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型。具体步骤如下:
(4.1)根据FDA算法计算有监督FDA的类间散度矩阵Sb和类内散度矩阵Sw,计算方法如下所示:
其中权值矩阵与定义为:
其中,权值矩阵αi与αj分别代表第i个样本和第j个样本的样本权重,样本的初始权重均为1,nl为有标签样本个数nu为无标签样本个数。
(4.2)根据无监督降维方法PCA进行全局散度矩阵的计算,整理成与FDA的对应形式,计算方法如下所示:
其中为n×n维矩阵,n为样本总数,且:
(4.3)计算半监督费舍尔判别(SFDA)的正则化类间散度矩阵Srb与正则化类内散度矩阵Srw,计算方法如下所示:
Srb=(1-β)Sb+βSt
Srw=(1-β)Sw+βIm
其中,Im是m维的单位对角矩阵,β∈[0,1]是调整参数,负责设置SFDA的平滑性。当β的值比较大时,SFDA更倾向于无监督学习的PCA。反之,则SFDA更接近FDA。当β的值为两种极端时,会比较特殊:当β=0,SFDA退化为FDA;当β=1,SFDA退化为PCA。
(4.4)进行半监督费舍尔判别向量求解,计算方法如下所示:
半监督费舍尔判别向量同样可以通过求解下面的优化问题得到:
上述的优化问题同样可等价于广义特征值问题:
其中,是广义特征值,而向量w是对应的广义特征向量。将所求得的广义特征值降序排列为相应广义特征向量为w1,w2,…,wm即为半监督费舍尔判别向量q1,q2,…,qm,而这些向量的分类性能依次减弱。
(4.5)选取前r个特征向量,得到费舍尔判别子空间Qr=[q1,q2,…,qr]。
第五步在有标签数据矩阵集下,利用此次迭代的得到的费舍尔判别子空间,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。然后计算并更新下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni),计算该次迭代所得子分类器的权重ωg,随后重复第四步和第五步,直至完成G次迭代,具体步骤如下:
(5.1)通常情况下,正常工况下的数据可假设是满足多变量高斯分布,故障如某些变量阶跃变化或者变量值随机增加的所引发的故障数据也可以认为是满足高斯分布的。假设样本属于每一类的先验概率相等为计算的条件概率密度函数,方法如下:
其中是Ck类样本的均值向量。
(5.2)根据贝叶斯准则,计算属于第i类型的后验概率,方法如下:
(5.3)将每个样本用不同子分类器的半监督费舍尔判别矩阵Qr进行上述运算,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。
其中pgj表示待分类样本被第g个子分类器判断成第j类的概率。当G次迭代完成时,得到完整的度量矩阵:
最终得到所有样本的度量层矩阵集合Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)。
(5.4)利用每个有标签样本的度量矩阵计算样本的权重,令代表本次迭代得到的第i个样本被g个子分类器分为第j类的概率平均值,计算每一个样本权重,公式如下:
其中,αi为第i个有标签样本的权重系数,代表第i个样本被分为其标签类别的概率平均值。
(5.5)计算当前迭代所得子分类器的权重系数ωg,我们定义C(xi)g为子分类器的决策层输出,代表第g个子分类器对第i个样本的分类类别结果,该输出不用于融合算法,只用于调节子分类器的融合权重。
ωg=准确率=故障样本被正确划分的样本总数/样本点总数。
第六步将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。
第七步收集新的过程数据Xnew,并对其进行预处理和归一化得到将新得到的每一个过程数据采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵,具体方法和第五步中(5.1)至(5.3)相同。
第八步将之前得到的有标签数据度量层矩阵及其标签作为K近邻的训练样本集,将待测过程数据的度量层矩阵进行K近邻融合,得到待分类过程数据的最终分类结果。具体步骤如下:
(8.1)初始化k值,如果对于二分类问题k取奇数。将有标签数据的度量矩阵集Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)和数据相应标签Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)作为度量层K近邻融合算法的训练集。
(8.2)将所有的度量矩阵用子分类器权重进行权重调整:
(8.3)对于待分类的过程样本xnewi的调整后的度量层输出计算其与训练集所有样本的权重调整后的欧氏距离Dij,在其中找出最近的k个样本点。
其中Dij为第i个待分类样本与第j个训练样本间的欧氏距离。
(8.4)计算这k个样本中属于C=(c1,c2,…,cC+1)类的样本个数ki,显然则该待分类样本属于最大值ki的那一类ci:
以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1~7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8~12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16~20是未知的。为了对该过程进行监测,一共选取了44个过程变量,如表1所示。接下来结合该具体过程对本发明的实施步骤进行详细地阐述:
1、采集正常数据以及4种故障数据作为训练样本数据,进行数据预处理和归一化。本实验中分别选择了正常工况以及故障1、2、8、10、14作为训练样本,故障1和故障2都是流4中的成分变化。故障8是由物料流4中的A、B和C的成分有随机变量变化所引起的故障,故障10是由物流2中料C的温度随机变化所带来的故障,故障14是反应器冷却水阀门沾滞引发的故障,是典型的非线性故障。可以看出这三种类型的故障的引发原因各不相同,其中故障14是常见的非线性故障类型。采样时间为3min,其中正常工况含有标签样本120个样本,其余故障分类分别选择有标签样本20个。
2、采集无标签数据,使样本的标签率σ=20%,设置迭代次数G,将无标签数据随机采样G次,每次取70%的无标签数据,和有标签数据一起组成子分类器训练集。
3、在每次迭代时对每个子训练集进行模型训练,求得半监督费舍尔判别向量矩阵,实验中选取r=5。
4、对训练样本集中的有标签数据进行半监督费舍尔判别分类,得到所有有标签数据的度量层矩阵,下一次迭代时的样本权重和子分类器权重。将有标签度量层矩阵和其标签集作为度量层融合算法K近邻的训练集。
5、在线分类测试
收集与训练数据不同的样本数据作为在线分类的测试数据,包括正常工况数据共C+1类,每一类数据为Xtj=[xt1;xt2;…;xtN],j=1,2,…,C+1,实验中C为5。其中正常测试样本取100个,其余各工况各选50个。
先对在线测试数据进行归一化处理,将处理后的样本输入到每个子分类器中,得到测试样本的度量层矩阵。将测试样本的度量层矩阵放入带权重的K近邻方法中进行度量层融合得到最终的分类结果。
从图1和图2的对比中可以看出,自适应的集成半监督分类算法要优于集成半监督分类算法,本算法对分类效果的提升比较明显。
表1:监控变量说明
变量编号 | 测量变量 | 变量编号 | 测量变量 |
1 | A进料流量 | 22 | 分离器冷却水出口温度 |
2 | D进料流量 | 23 | 物流6中A摩尔含量 |
3 | E进料流量 | 24 | 物流6中B摩尔含量 |
4 | A+C进料流量 | 25 | 物流6中C摩尔含量 |
5 | 再循环流量 | 26 | 物流6中D摩尔含量 |
6 | 反应器进料流速 | 27 | 物流6中E摩尔含量 |
7 | 反应器压力 | 28 | 物流6中F摩尔含量 |
8 | 反应器等级 | 29 | 物流9中A摩尔含量 |
9 | 反应器温度 | 30 | 物流9中B摩尔含量 |
10 | 排放速度 | 31 | 物流9中C摩尔含量 |
11 | 产品分离器温度 | 32 | 物流9中D摩尔含量 |
12 | 产品分离器等级 | 33 | 物流9中E摩尔含量 |
13 | 产品分离器温度 | 34 | 物流9中F摩尔含量 |
14 | 产品分离器塔底流量 | 35 | 物流9中G摩尔含量 |
15 | 汽提塔等级 | 36 | 物流9中H摩尔含量 |
16 | 汽提塔压力 | 37 | 物流11中D摩尔含量 |
17 | 汽提塔塔底流量 | 38 | 物流11中E摩尔含量 |
18 | 汽提塔温度 | 39 | 物流11中F摩尔含量 |
19 | 汽提塔流量 | 40 | 物流11中G摩尔含量 |
20 | 压缩机功率 | 41 | 物流11中H摩尔含量 |
21 | 反应器冷却水出口温度 |
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (5)
1.一种基于自适应的集成半监督费舍尔判别的故障分类方法,其特征在于,包括以下步骤:(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rni×m表示X满足ni×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1 ×(∑ni)。将这些数据存入历史数据库作为有标签数据集。
(2)利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。
(3)从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为
(4)设定迭代次数即弱分类器个数为G,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型,初始权重均为1。
(5)在有标签数据矩阵集下,利用不同的分类器模型和参数,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R为实数集,Rg×(C+1)表示X满足g×(C+1)的二维分布并计算下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)和该次迭代所得子分类器的权重ωg,重复(4)、(5)两步骤,直至完成G次迭代。
(6)将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。
(7)在线收集新的过程数据Xnew,并对其进行预处理和归一化使得各个过程变量的均值为零,方差为1,得到分别采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵。
(8)将在线过程数据的度量层矩阵和之前得到的有标签数据度量层矩阵及其标签进行K近邻融合,得到待分类过程数据的最终分类结果。
2.根据权利要求1所述基于自适应的集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(4)具体为:选取合适的子分类器个数G,G的选取视具体工况数据表现而定,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型具体步骤如下:
(4.1)根据FDA算法计算有监督FDA的类间散度矩阵Sb和类内散度矩阵Sw,将公式整理改写成对等形式,计算方法如下所示:
其中权值矩阵与定义为:
其中权值矩阵αi与αj分别代表第i个样本和第j个样本的样本权重,样本的初始权重均为1,nl为有标签样本个数nu为无标签样本个数。
(4.2)根据无监督降维方法PCA进行全局散度矩阵的计算,整理成与FDA的对应形式,计算方法如下所示:
其中为n×n维矩阵,n为样本总数,且:
(4.3)计算半监督费舍尔判别(SFDA)的正则化类间散度矩阵Srb与正则化类内散度矩阵Srw,计算方法如下所示:
Srb=(1-β)Sb+βSt
Srw=(1-β)Sw+βIm
其中,Im是m维的单位对角矩阵,β∈[0,1]是调整参数,负责设置SFDA的平滑性。当β的值比较大时,SFDA更倾向于无监督学习的PCA。反之,则SFDA更接近FDA。当β的值为两种极端时,会比较特殊:当β=0,SFDA退化为FDA;当β=1,SFDA退化为PCA。
(4.4)进行半监督费舍尔判别向量求解,计算方法如下所示:
半监督费舍尔判别向量q同样可以通过求解下面的优化问题得到:
上述的优化问题同样可等价于广义特征值问题:
其中,是广义特征值,而向量w是对应的广义特征向量。将所求得的广义特征值降序排列为相应广义特征向量为w1,w2,…,wm即为半监督费舍尔判别向量q1,q2,…,qm,而这些向量的分类性能依次减弱。
(4.5)选取前r个特征向量,得到费舍尔判别子空间Qr=[q1,q2,…,qr]。
3.根据权利要求1所述基于自适应的集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(5)具体为:在有标签数据矩阵集下,利用此次迭代的得到的费舍尔判别子空间,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。然后计算并更新下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni),计算该次迭代所得子分类器的权重ωg,随后重复步骤(4)和步骤(5),直至完成G次迭代,具体步骤如下:
(5.1)通常情况下,正常工况下的数据可假设是满足多变量高斯分布,故障如某些变量阶跃变化或者变量值随机增加的所引发的故障数据也可以认为是满足高斯分布的。假设样本属于每一类的先验概率相等为计算的条件概率密度函数,方法如下:
其中是Ck类样本的均值向量。
(5.2)根据贝叶斯准则,计算属于第i类型的后验概率,方法如下:
(5.3)将每个样本用不同子分类器的半监督费舍尔判别矩阵Qr进行上述运算,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。
其中pgj表示待分类样本被第g个子分类器判断成第j类的概率。当G次迭代完成时,得到完整的度量矩阵:
最终得到所有样本的度量层矩阵集合Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)。
(5.4)利用每个有标签样本的度量矩阵计算样本的权重,令代表本次迭代得到的第i个样本被g个子分类器分为第j类的概率平均值,计算每一个样本权重,公式如下:
其中,αi为第i个有标签样本的权重系数,代表第i个样本被分为其标签类别的概率平均值。
(5.5)计算当前迭代所得子分类器的权重系数ωg,我们定义C(xi)g为子分类器的决策层输出,代表第g个子分类器对第i个样本的分类类别结果,该输出不用于融合算法,只用于调节子分类器的融合权重。
ωg=准确率=故障样本被正确划分的样本总数/样本点总数。
4.根据权利要求1所述基于集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(7)具体为:收集新的过程数据Xnew,并对其进行预处理和归一化得到将新得到的每一个过程数据采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵,具体方法和步骤(5)中步骤5.1-5.3相同。
5.根据权利要求1所述基于集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(8)具体为:将之前得到的有标签数据度量层矩阵及其标签作为K近邻的训练样本集,将待测过程数据的度量层矩阵进行K近邻融合,得到待分类过程数据的最终分类结果。具体步骤如下:
(8.1)初始化k值,如果对于二分类问题k取奇数。将有标签数据的度量矩阵集Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)和数据相应标签Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)作为度量层K近邻融合算法的训练集。
(8.2)将所有的度量矩阵用子分类器权重进行权重调整:
(8.3)对于待分类的过程样本xnewi的调整后的度量层输出计算其与训练集所有样本的权重调整后的欧氏距离Dij,在其中找出最近的k个样本点。
其中Dij为第i个待分类样本与第j个训练样本间的欧氏距离。
(8.4)计算这k个样本中属于C=(c1,c2,…,cC+1)类的样本个数ki,显然则该待分类样本属于最大值ki的那一类ci:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056648.4A CN106843195B (zh) | 2017-01-25 | 2017-01-25 | 基于自适应集成半监督费舍尔判别的故障分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056648.4A CN106843195B (zh) | 2017-01-25 | 2017-01-25 | 基于自适应集成半监督费舍尔判别的故障分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106843195A true CN106843195A (zh) | 2017-06-13 |
CN106843195B CN106843195B (zh) | 2018-12-04 |
Family
ID=59122486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710056648.4A Expired - Fee Related CN106843195B (zh) | 2017-01-25 | 2017-01-25 | 基于自适应集成半监督费舍尔判别的故障分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106843195B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657274A (zh) * | 2017-09-20 | 2018-02-02 | 浙江大学 | 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法 |
CN108388232A (zh) * | 2018-03-20 | 2018-08-10 | 江南大学 | 一种原油脱盐过程的运行模式故障监测方法 |
CN109032107A (zh) * | 2018-06-05 | 2018-12-18 | 国家电网公司 | 基于贝叶斯分类的设备故障信号频发预测方法 |
CN109582003A (zh) * | 2018-12-03 | 2019-04-05 | 东北林业大学 | 基于伪标签半监督核局部费舍尔判别分析轴承故障诊断 |
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
CN110221590A (zh) * | 2019-05-17 | 2019-09-10 | 华中科技大学 | 一种基于判别分析的工业过程多故障诊断方法 |
CN110308713A (zh) * | 2019-06-03 | 2019-10-08 | 湖州师范学院 | 一种基于k近邻重构的工业过程故障变量识别方法 |
CN110647117A (zh) * | 2019-09-06 | 2020-01-03 | 青岛科技大学 | 一种化工过程故障识别方法及系统 |
CN112232395A (zh) * | 2020-10-08 | 2021-01-15 | 西北工业大学 | 一种基于联合训练生成对抗网络的半监督图像分类方法 |
CN112332914A (zh) * | 2021-01-07 | 2021-02-05 | 睿至科技集团有限公司 | 一种存储网络中光纤链路故障监控方法及系统 |
CN112598022A (zh) * | 2020-11-30 | 2021-04-02 | 北京化工大学 | 基于集成学习方法的改进fda流程工业故障诊断方法 |
WO2022087806A1 (en) * | 2020-10-27 | 2022-05-05 | Paypal, Inc. | Multi-phase training techniques for machine learning models using weighted training data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005266A1 (en) * | 2004-05-04 | 2007-01-04 | Fisher-Rosemount Systems, Inc. | Process plant monitoring based on multivariate statistical analysis and on-line process simulation |
CN105116872A (zh) * | 2015-07-13 | 2015-12-02 | 哈尔滨工业大学 | 一种工业过程中基于度量学习与时间序列的故障诊断方法 |
CN105404280A (zh) * | 2015-12-11 | 2016-03-16 | 浙江科技学院 | 基于自回归动态隐变量模型的工业过程故障检测方法 |
CN105700518A (zh) * | 2016-03-10 | 2016-06-22 | 华中科技大学 | 一种工业过程故障诊断方法 |
-
2017
- 2017-01-25 CN CN201710056648.4A patent/CN106843195B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005266A1 (en) * | 2004-05-04 | 2007-01-04 | Fisher-Rosemount Systems, Inc. | Process plant monitoring based on multivariate statistical analysis and on-line process simulation |
CN105116872A (zh) * | 2015-07-13 | 2015-12-02 | 哈尔滨工业大学 | 一种工业过程中基于度量学习与时间序列的故障诊断方法 |
CN105404280A (zh) * | 2015-12-11 | 2016-03-16 | 浙江科技学院 | 基于自回归动态隐变量模型的工业过程故障检测方法 |
CN105700518A (zh) * | 2016-03-10 | 2016-06-22 | 华中科技大学 | 一种工业过程故障诊断方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657274A (zh) * | 2017-09-20 | 2018-02-02 | 浙江大学 | 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法 |
CN108388232B (zh) * | 2018-03-20 | 2020-07-24 | 江南大学 | 一种原油脱盐过程的运行模式故障监测方法 |
CN108388232A (zh) * | 2018-03-20 | 2018-08-10 | 江南大学 | 一种原油脱盐过程的运行模式故障监测方法 |
CN109032107A (zh) * | 2018-06-05 | 2018-12-18 | 国家电网公司 | 基于贝叶斯分类的设备故障信号频发预测方法 |
CN109032107B (zh) * | 2018-06-05 | 2021-07-20 | 国家电网公司 | 基于贝叶斯分类的设备故障信号频发预测方法 |
CN109582003A (zh) * | 2018-12-03 | 2019-04-05 | 东北林业大学 | 基于伪标签半监督核局部费舍尔判别分析轴承故障诊断 |
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
CN110221590A (zh) * | 2019-05-17 | 2019-09-10 | 华中科技大学 | 一种基于判别分析的工业过程多故障诊断方法 |
CN110308713A (zh) * | 2019-06-03 | 2019-10-08 | 湖州师范学院 | 一种基于k近邻重构的工业过程故障变量识别方法 |
CN110647117A (zh) * | 2019-09-06 | 2020-01-03 | 青岛科技大学 | 一种化工过程故障识别方法及系统 |
CN110647117B (zh) * | 2019-09-06 | 2020-12-18 | 青岛科技大学 | 一种化工过程故障识别方法及系统 |
CN112232395A (zh) * | 2020-10-08 | 2021-01-15 | 西北工业大学 | 一种基于联合训练生成对抗网络的半监督图像分类方法 |
CN112232395B (zh) * | 2020-10-08 | 2023-10-27 | 西北工业大学 | 一种基于联合训练生成对抗网络的半监督图像分类方法 |
WO2022087806A1 (en) * | 2020-10-27 | 2022-05-05 | Paypal, Inc. | Multi-phase training techniques for machine learning models using weighted training data |
AU2020474630B2 (en) * | 2020-10-27 | 2024-01-25 | Paypal, Inc. | Multi-phase training techniques for machine learning models using weighted training data |
CN112598022A (zh) * | 2020-11-30 | 2021-04-02 | 北京化工大学 | 基于集成学习方法的改进fda流程工业故障诊断方法 |
CN112332914A (zh) * | 2021-01-07 | 2021-02-05 | 睿至科技集团有限公司 | 一种存储网络中光纤链路故障监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106843195B (zh) | 2018-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106843195B (zh) | 基于自适应集成半监督费舍尔判别的故障分类方法 | |
CN106649789B (zh) | 一种基于集成半监督费舍尔判别的工业过程故障分类方法 | |
Deng et al. | Deep principal component analysis based on layerwise feature extraction and its application to nonlinear process monitoring | |
Ko et al. | Fault classification in high-dimensional complex processes using semi-supervised deep convolutional generative models | |
Zhou et al. | Recognition of control chart patterns using fuzzy SVM with a hybrid kernel function | |
CN103914064B (zh) | 基于多分类器和d-s证据融合的工业过程故障诊断方法 | |
Li et al. | Data-driven bearing fault identification using improved hidden Markov model and self-organizing map | |
CN113255848B (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
CN109800875A (zh) | 基于粒子群优化和降噪稀疏编码机的化工故障检测方法 | |
Ayodeji et al. | Causal augmented ConvNet: A temporal memory dilated convolution model for long-sequence time series prediction | |
Tang et al. | A deep belief network-based fault detection method for nonlinear processes | |
Fan et al. | AutoEncoder based high-dimensional data fault detection system | |
CN109298633A (zh) | 基于自适应分块非负矩阵分解的化工生产过程故障监测方法 | |
CN107239789A (zh) | 一种基于k‑means的不平衡数据工业故障分类方法 | |
CN112904810A (zh) | 基于有效特征选择的流程工业非线性过程监测方法 | |
CN111898690A (zh) | 一种电力变压器故障分类方法及系统 | |
CN112149884A (zh) | 一种面向大规模学员的学业预警监测方法 | |
Yong et al. | Fault diagnosis based on fuzzy support vector machine with parameter tuning and feature selection | |
Deng et al. | Incipient fault detection of nonlinear chemical processes based on probability-related randomized slow feature analysis | |
CN110084301B (zh) | 一种基于隐马尔可夫模型的多工况过程工况辨识方法 | |
Zhao et al. | Remaining useful life prediction method based on convolutional neural network and long short-term memory neural network | |
Zeng et al. | Fault diagnosis based on variable-weighted separability-oriented subclass discriminant analysis | |
Huang et al. | Fault classification in dynamic processes using multiclass relevance vector machine and slow feature analysis | |
Hua et al. | A novel sampled-data asynchronous CatBoost model with knowledge-based guidance for product quality estimation in the industrial processes | |
CN116415505A (zh) | 一种基于sbr-dbn模型的系统故障诊断与状态预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181204 Termination date: 20200125 |
|
CF01 | Termination of patent right due to non-payment of annual fee |