CN107918379B

CN107918379B - 基于图半监督代价敏感的工业大数据早期故障检测方法

Info

Publication number: CN107918379B
Application number: CN201711223159.XA
Authority: CN
Inventors: 张颖伟; 郑肇默; 冯琳
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2020-03-31
Anticipated expiration: 2037-11-29
Also published as: CN107918379A

Abstract

本发明提供一种基于图半监督代价敏感的工业大数据早期故障检测方法，涉及故障检测与诊断技术领域。该方法首先采集工业过程的数据，采用图半监督的标签传播方法对未标记数据的标签进行一次更新，并圈定疑似早期故障；然后针对疑似早期故障点进行代价敏感的贝叶斯分类，完成对疑似早期故障数据点标签的二次更新；最后建立EDC‑SVM分类器，对工业过程进行在线故障诊断。本发明提供的基于图半监督代价敏感的工业大数据早期故障检测方法，以诊断代价最小化为故障诊断目标，划分出疑似早期故障，解决了工业故障检测误分类代价高的问题。同时在保证分类准确性的情况之下，降低了故障检测中的误判代价，提高了工业过程的安全性。

Description

基于图半监督代价敏感的工业大数据早期故障检测方法

技术领域

本发明涉及故障检测与诊断技术领域，尤其涉及一种基于图半监督代价敏感的工业大数据早期故障检测方法。

背景技术

随着现代工业的迅速发展，现代企业中生产设备日趋大型化、连续化、高速化和自动化，设备的结构与组成十分复杂，生产规模非常庞大，各部门之间的联系也特别密切。实际的生产过程有线性的、非线性的、时不变的、时变的等，对于不同的生产过程所具有的特征，应选用不同的故障监测方法，这样才能有效地检测到故障。

传统的分类算法通常以全局分类误分率最小化为目标，并假设各类的错分代价相等以及数据集是平衡的。而在某些工业生产监控过程中，这两种假设不成立。由于危害程度不同，设备的误诊断代价不对等，将故障状态误诊断为正常状态所需要承担的安全隐患和经济损失等代价往往大于相反情况时的代价。另外，由于故障样本的获取是以设备某种程度的损坏为代价，所以，相对于正常样本，故障样本的数量会少得多，这种样本不均衡性导致以分类准确率为性能指标的故障诊断方法的结论更倾向于正常状态的判定，不能有效地避免故障带来的损失。因此，以误分率最小化为目标已不能满足实际的故障诊断要求。

发明内容

针对现有技术的缺陷，本发明提供一种基于图半监督代价敏感的工业大数据早期故障检测方法，以诊断代价最小化为故障诊断目标实现故障检测。

基于图半监督代价敏感的工业大数据早期故障检测方法，包括以下步骤：

步骤1:采集工业过程的视频数据，并提取关键帧，进行灰度处理，获得二十维的特征变量，同时提取工业过程的电流数据，将电流数据与视频异构数据协同建模，并将采集的数据分为故障数据和正常数据进行标记；

总的采样数据为X＝[x₁,x₂,...,x_l,x_l+1,...,x_l+u]∈R^D×(l+u)，其中，x_i为第i个采样数据，i＝1、…、t，t＝l+u为采样数据总数，l为已标记数据的个数，u为未标记数据的个数，且u>>l，D为数据维数；第i_l个已标记数据的类标签记为y_i∈{1、2、...、S}，i_l＝1、…、l,其中S为分类的总类别数；

步骤2：采用图半监督的标签传播方法对未标记数据的标签进行一次更新，得到采样数据所属类别的概率值，并圈定疑似早期故障点；

步骤2.1：对未标记数据的标签进行一次更新，具体方法为：

将(x₁,y₁)、…、(x_l,y_l)表示为已标记数据，F_L＝(y₁,…,y_l)为已标记数据的类标签，已标记数据分为正常类和故障类两个类别；将(x_l,y_l)、…、(x_l+u,y_l+u)表示为未标记数据，F_U＝(y_l,...,y_l+u)为未知的未标记数据的类标签；

将已标记数据和未标记数据建立一个全连接图，每个数据节点都与其他所有数据节点相连接；

全连接图中数据节点之间边的权重值设定如下公式所示：

w_ij＝exp(-||x_i-x_j||/σ)

其中，x_i和x_j分别为全连接图中的第i个和第j个数据节点，i、j＝1,2,…,t；w_ij为数据节点x_i和x之间边的权重值，σ为控制节点间权重值范围的权重参数；

构造概率转移矩阵P，其中的每一个元素为

其中，

为所有t个数据点中每一个数据点与第j个数据节点之间边的权重值之和；

将得到的概率转移矩阵P进行标准化得到

的每一个元素为

定义t×2的标签矩阵F，第一列元素F_i1为采样数据属于正常类的概率值，第二列元素F_i2为采样数据属于故障类的概率值；若采样数据中的已标记数据属于正常类，则F_i1＝1，F_i2＝0；若采样数据中的已标记数据属于故障类则F_i1＝0，F_i2＝1；

对标签矩阵F进行有限次迭代，每次迭代的结果为：

其中，F_(k)为标签矩阵F第k步的迭代结果，F_(k+1)为标签矩阵F第k+1步的迭代结果；

将标签矩阵F进行切分，得到

F_L为已标记数据的标签矩阵，用已标记数据的标签对其初始化；F_U为未标记数据的标签，为未知矩阵，同时将标准化的概率转移矩阵

进行切分，得到

利用已标记数据的标签矩阵F_L，将标签矩阵F的迭代结果中未标记部分进一步表示为：

F_U(k+1)和F_U(k)分别为未标记数据标签的第k+1步与第k步的迭代结果；

进一步得到未标记数据标签传播的结果，如下式所示：

其中，

为未标记数据的一次更新标签，F_U(0)为初始化未标记数据标签；因为

为行标准化后矩阵，其无穷范数小于等于1，

为

的子矩阵，所以

的无穷范数小于等于1，

的谱半径小于其无穷范数，

的谱半径小于1，得出

推论出标签传播结果最终收敛至：

I为t阶单位矩阵；

标签矩阵F的最终结果为

步骤2.2：根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障点的范围，具体方法为：

若采样数据的标签一次更新结果满足

条件，则视为该采样数据点为疑似早期故障点，其中δ为疑似早期故障圈定参数，

均为标签矩阵F^*中第i行的元素，分别代表采样数据标签一次更新后属于正常类与故障类的概率，根据采样数据的标签一次更新结果满足的条件，确定m个疑似早期故障点；否则，该采样数据点不是疑似早期故障点，则确定该采样数据点的标签为

i′＝1,2,...,t-m；

步骤3：针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类，以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新，具体方法为：

首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:

其中i_m＝1,2,...,m，

为疑似早期故障数据点属于正常类的后验概率，H_nf和H_fn分别为故障数据的误判率和正常数据的误判率；

代价敏感分类器通过如下函数实现最小化条件代价敏感风险：

E_Y[L(f(x),y)|x]＝ηL(f(x),1)+(1-η)L(f(x),-1)

其中L(f(x),1)为数据属于正常类的代价折页损失函数，f(x)为分类器的分类函数，L(f(x),y)＝c_ymax(0,1-f(x)y)为损失函数，其中y为标签，c_y为代价参数；

根据Bayes决策理论，最优决策应最小化期望分类代价，得到Bayes分类器为：

其中，C₊为正常类误分类代价，C_-为故障类误分类代价，且C₊<C_-；

因此，得到代价敏感分类函数的最优解为：

其中，

为第i_m个疑似早期故障的分类结果，即为针对疑似早期故障进行CS-Bayes后的二次标签更新后的结果；

步骤4：建立样例代价敏感支持向量机(即Example dependent cost-sensitivesupport vector machine，简称EDC-SVM)分类器，具体方法为：

步骤4.1：构造代价敏感支持向量机优化目标函数，如下式所示：

其中，

为疑似早期故障类中的数据集中的第i_m个数据点，根据步骤3得到的标签二次更新结果，m₊和m_-分别为m个疑似早期故障数据点中正常类和故障类数据点的个数，

为疑似早期故障数据点

的样例代价，C_ratio＝C_-/C₊为由经验值确定的类间代价之比，

为松弛变量，ω与b为确定分类超平面的参数，C为控制目标函数中硬间隔目标函数

与代价惩罚项

之间的权重的参数，

为非线性映射函数；

将代价敏感支持向量机优化目标函数转化为如下对偶问题，得到最优分类超平面：

其中，

为核函数，

分别为第i_m个和第j_m个约束的拉格朗日乘子，j_m＝1,2,...,m，样例代价

由疑似早期故障类到对应类中心的高维空间的马氏距离确定；

步骤4.2：求解疑似早期故障数据点的样例代价，具体方法为：

疑似早期故障数据点第i_m个数据点

如果属于正常类，其样例代价

由该数据点的正常类标签到已确定的正常类的马氏距离确定，否则该数据点属于故障类，其样例代价

由该数据点的故障类标签到已确定的故障类的马氏距离确定；

所述疑似早期故障中第i_m个样本

到其所对应的正常类样本总体X_N或故障类样本总体X_F的马氏距离如下式所示：

其中，X′＝X_N或X′＝X_F，Σ为协方差矩阵，μ为样本均值；

将协方差矩阵Σ由核矩阵进行表示，马氏距离

进一步转化为如下公式所示：

其中，K为核矩阵，其各元素均为核函数；β为核矩阵K中心化后进行对角分解得到的特征正交阵，Ω为核矩阵K中心化后进行对角分解得到的对角阵，Ω^-2为Ω的平方伪逆；m′为正常类或故障类样本总体的个数，其取值取决于疑似早期故障中第i_m个样本

的类标签；

将得到的马氏距离

的结果作为疑似早期故障数据点

的样例代价

的值；

步骤4.3：运用改进的序列最小优化算法(即Sequential minimal optimization,简称SMO)，确定分类超平面的结果，具体方法为：

由代价敏感支持向量机优化目标函数转化的对偶问题中的约束

将求解代价敏感支持向量机优化目标函数中ω与b的原始问题，转化为求解对偶问题中的拉格朗日乘子；

从m个拉格朗日乘子中任意选取一对拉格朗日乘子(α₁,α₂)，并将其标记为

作为初始可行解，其对应的样例代价分别为c(x₁)和c(x₂)，且满足

α^new为拉格朗日乘子α^old的更新值；

由初始可行解求出,

其中，η＝K₁₁+K₂₂-2K₁₂，

E₁为拉格朗日乘子α₁所对应数据点的分类函数值f(x₁)与其标签y₁之差；E₂为拉格朗日乘子α₂所对应数据点的分类函数值f(x₂)与其标签y₂之差；

根据每对拉格朗日乘子对应的样例代价的不同约束条件，求解出新的拉格朗日乘子，实现使用新的拉格朗日乘子

来代替原有的拉格朗日乘子

每完成对两个拉格朗日乘子的优化后，对参数b进行更新，具体方法为：

对于更新后的拉格朗日乘子

若

由支持向量机的条件y₁(ω^Tx₁+b)＝1得到

得到参数b的更新值如下式所示：

其中，

为参数b的临时更新值，b^old为参数b的初始化参数；

对于更新后拉格朗日乘子

若

得到参数b的更新值如下式所示：

其中，

为参数b的另一个临时更新值；

参数b最终的更新值b^new为：若满足

则取

若满足

则取

若同时满足

与

则

否则，认为

与

之间任何数都满足KKT(Karush–Kuhn–Tucker)条件，取

运用以上方法不断迭代直至所有的拉普拉斯乘子

以及参数b完成更新；

最终得到疑似早期故障数据点EDC-SVM的分类超平面为：

f(x)＝ω^Tx+b^new

其中，f(x)为分类函数，x为疑似早期故障数据集中的数据点；

步骤5：使用EDC-SVM分类器对工业过程进行故障检测，具体方法为：

采集待诊断的工业过程数据进行故障检测，通过标签传播算法得到数据所属类别概率，若数据不属于疑似早期故障类别，则输出其标签，确定其为正常数据或故障数据；若数据属于疑似早期故障类，通过EDC-SVM分类器得到其所属类别，若属于正类则认为是正常数据，若属于负类，则圈定其为早期故障点，完成工业过程的故障检测。

由上述技术方案可知，本发明的有益效果在于：本发明提供的基于图半监督代价敏感的工业大数据早期故障检测方法，使用半监督标签传播方法，合理的使用了带有标签的已标记数据和大量未标记数据的信息，确定未标记数据的标签对数据进行故障检测，同时，结合代价敏感学习方法，并以诊断代价最小化为故障诊断目标，划分出疑似早期故障，解决了工业故障检测误分类代价高的问题。同时，不同的误分类代价使得分类决策面向误分类代价大的方向偏移，在保证分类准确性的情况之下，降低了故障检测中的误判代价，提高了工业过程的安全性。

附图说明

图1为本发明实施例提供的电熔镁炉工艺流程示意图；

图2为本发明实施例提供的基于图半监督代价敏感的工业大数据早期故障检测方法的流程图；

图3为本发明实施例提供的圈定疑似早期故障点的流程图；

图4为本发明实施例提供的使用标签传播方法得到的未标记数据的标签的示意图；

图5为本发明实施例提供的圈定的疑似早期故障范围的示意图；

图6为本发明实施例提供的使用CS-Bayes分类器得到的疑似早期故障类标签的示意图；

图7为本发明实施例提供的使用EDC-SVM方法得到的分类超平面的示意图；

图8为本发明实施例提供的使用传统SVM分类器得到的分类超平面的示意图。

图中：1、变压器；2、短网；3、电极夹；4、电极；5、炉壳；6、小车；7、电弧；8、熔池。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

电熔镁炉是用于生产电熔镁砂的主要设备之一，随着熔炼技术的发展，电熔镁炉已经在镁砂生产行业中得到广泛应用。电熔镁炉是一种以电弧为热源的熔炼炉，它热量集中，可以很好地熔炼镁砂。电熔镁炉熔炼过程经历熔融、排析、提纯、结晶等过程阶段。电熔镁炉冶炼工业流程如图1所示，所使用的设备包括变压器1、短网2、电极夹3、电极4、炉壳5、小车6、电弧7和熔池8。炉子边设有控制室，控制电极升降。炉壳5一般为圆形，稍有锥形，为便于熔砣脱壳，在炉壳壁上焊有吊环，炉下设有移动小车，作用是使熔化完成的熔块移到固定工位，冷却出炉。

本实施例以某企业的超高温电熔镁冶炼过程为例，使用本发明的基于图半监督代价敏感的工业大数据早期故障检测方法对超高温电熔镁的早期故障进行监测。

基于图半监督代价敏感的工业大数据早期故障检测方法，如图2所示，包括以下步骤：

本实施例中，采集的数据包括电熔镁冶炼过程在某一特定时刻的电解炉内外的视频数据和三个电极的电流值。同时提取视频数据的关键帧，用灰度共生矩阵提取图像的ASM能量、对比度、逆差距、熵、自相关信息，并将采集的数据进行协同建模。将采集的数据进行标记，其中，已标记数据为13个，如表1所示，未标记数据为152个，部分数据如表2所示。已标记数据又分为正常数据和故障数据2个类别。

表1 13组已标记的采样数据

表2部分未标记的采样数据

步骤2：采用图半监督的标签传播方法对未标记数据的标签进行一次更新，如图3所示，得到采样数据所属类别的概率值，并圈定疑似早期故障点；

步骤2.1：对未标记数据的标签进行一次更新，具体方法为：

将(x₁,y₁)、…、(x_l,y_l)表示为已标记数据，F_L＝(y₁,…,y_l)为已标记数据的类标签，已标记数据分为正常类和故障类两个类别；将(x_l,y_l)、…、(x_l+u,y_l+u)表示为未标记数据F_U＝(y_l,...,y_l+u)为未知的未标记数据的类标签；

全连接图中数据节点之间的边的权重值设定如下公式所示：

w_ij＝exp(-||x_i-x_j||/σ)

其中，x_i和x_j分别为全连接图中的第i个和第j个数据节点，i、j＝1,2,…,t；w_ij为数据节点x_i和x_j之间边的权重值，σ为控制节点间权重值范围的权重参数；

构造概率转移矩阵P，其中的每一个元素为

其中，

将得到的概率转移矩阵P进行标准化得到

的每一个元素为

对标签矩阵F进行有限次迭代，每次迭代的结果为：

将标签矩阵F进行切分，得到

进行切分，得到

进一步得到未标记数据标签传播的结果，如下式所示：

其中，

为行标准化后矩阵，其无穷范数小于等于1，

为

的子矩阵，所以

的无穷范数小于等于1，

的谱半径小于其无穷范数，

的谱半径小于1，得出

推论出标签传播结果最终收敛至：

I为t阶单位矩阵；

标签矩阵F的最终结果为

步骤2.2：根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障的范围，具体方法为：

若采样数据的标签一次更新结果满足

均为标签矩阵F^*中第i行的元素，分别代表采样数据标签一次更新后属于正常类与故障类的概率，根据条件，确定m个疑似早期故障点；否则，该采样数据点不是疑似早期故障点，则确定该采样数据点的标签为

i′＝1,2,...,t-m；

本实施中，概率转移矩阵P的部分数据如表3所示，采样数据所属类别的概率结果部分数据如表4所示，采样数据所属类别的分类结果如图4所示。设定疑似早期故障圈定参数σ为1.5，依据类所属概率对容易误分类的数据点进行疑似早期故障的圈定，得到疑似早期故障类，并将其他已确定所属类的数据进行标签固定，得到采样数据的分类结果如图5所示，其中故障类数据60个，正常工况数据59个，疑似早期故障数居46个。

表3标签传播算法得到的部分概率转移矩阵

表4标签传播算法得到的类所属概率

其中i_m＝1,2,...,m，

E_Y[L(f(x),y)|x]＝ηL(f(x),1)+(1-η)L(f(x),-1)

因此，得到代价敏感分类函数的最优解为：

其中，

本实施例中，针对46个疑似早期故障数据点，进行CS-Bayes分类。其中，故障数据误判率H(n,f)和正常数据误判率H(f,n)根据电熔镁炉工业现场经验来设定，分别取2％与5％，正常类误分类代价参数C₊设定为1，故障类误分类代价参数C_-设定为5，得到CS-Bayes分类的结果如图6所示。

其中，

为疑似早期故障数据点

与代价惩罚项

之间的权重的参数，

为非线性映射函数；

其中，

为核函数，

疑似早期故障数据点第i_m个数据点

如果属于正常类，其样例代价

所述疑似早期故障中第i_m个样本

其中，X′＝X_N或X′＝X_F，Σ为协方差矩阵，μ为样本均值；

定义核矩阵K，对核矩阵K进行中心化，得到K_c＝K-I_m′K-KI_m′+I_m′KI_m′，其中，I_m′为元素均为

的m′×m′矩阵，m′为正常类或故障类样本总体的个数，其取值取决于疑似早期故障中第i_m个样本

的类标签；对K_c进行对角分解，得到K_c＝β^TΩβ，Ω为K_c对角分解后的对角阵，β为特征正交阵；

针对协方差矩阵Σ为奇异阵无法直接求取马氏距离的情况，按照矩阵理论，Σ为实对称半正定矩阵，秩为r，将Σ分解为Σ＝A^TGA，其中，G为r×r的非奇异对角阵，由协方差矩阵Σ的r个非0特征值构成，A为r×m′矩阵，由对角阵G中特征值所对应的特征向量构成，且A为正交矩阵，满足AA^T为r×r的单位矩阵。根据这一分解可以求得Σ的伪逆为：Σ⁺＝A^TG^- ¹A。对协方差阵进行正交分解得Σ＝V^TEV，其中，E＝(1/m′)Ω，V＝Ω^-1/2βX。

进一步得到协方差Σ的伪逆矩阵如下式所示：

Σ⁺＝m′X^Tβ^TΩ^-2βX

其中，Ω^-2为对角阵Ω的平方伪逆。

将协方差伪逆矩阵Σ⁺代入到马氏距离

中，进一步得到马氏距离如下式所示：

将得到的马氏距离

的结果作为疑似早期故障数据点

的样例代价

的值；

α^new为拉格朗日乘子α^old的更新值；

从初始可行解求出,

其中，η＝K₁₁+K₂₂-2K₁₂，

E₁为拉格朗日乘子α₁所对应数据点的分类函数值f(x₁)与其标签y₁之差；E₂为拉格朗日乘子α₂所对应数据点的分类函数值f(x₂)与其标签y₂之差。

来代替原有的

对于更新后的拉格朗日乘子

若

由支持向量机的条件y₁(ω^Tx₁+b)＝1得到

得到参数b的更新值如下式所示：

其中，

为参数b的临时更新值，b^old为参数b的初始化参数；

对于更新后拉格朗日乘子

若

得到参数b的更新值如下式所示：

其中，

为参数b的另一个临时更新值；

参数b最终的更新值b^new为：若满足

则取

若满足

则取

若同时满足

与

则

否则，认为

与

之间任何数都满足KKT(Karush–Kuhn–Tucker)条件，取

运用以上方法不断迭代直至所有的拉普拉斯乘子

以及参数b完成更新；

最终得到疑似早期故障数据点EDC-SVM的分类超平面为：

f(x)＝ω^Tx+b^new

本实施例中，使用EDC-SVM方法得到的分类超平面如图7所示，其中，有四个正常数据被误分类为故障数据。本实施例同时还提供了使用传统SVM方法得到的分类超平面如图8所示，因为传统的SVM分类器没有考虑误分类的代价，将两个故障数据误分类到了正常数据中，总体代价为10，导致误分类的整体代价偏大。

从以上结果可以看出，本实施例方法是以总体代价最小化为目标进行故障分类，得到的分类超平面更靠近误分类代价小的正常类，虽然分类准确率下降，但是总体误分类代价得到了减小。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于图半监督代价敏感的工业大数据早期故障检测方法，包括以下步骤：

步骤1：采集工业过程的视频数据，并提取关键帧，进行灰度处理，获得二十维的特征变量，同时提取工业过程的电流数据，将电流数据与视频异构数据协同建模，并将采集的数据分为故障数据和正常数据进行标记；

总的采样数据为X＝[x₁，x₂，...，x_l，x_l+1，...，x_l+u]∈R^D×(l+u)，其中，x_i为第i个采样数据，i＝1、…、t，t＝l+u为采样数据总数，l为已标记数据的个数，u为未标记数据的个数，且u＞＞l，D为数据维数；第i_l个已标记数据的类标签记为y_i∈{1、2、...、S}，i_l＝1、…、l，其中S为分类的总类别数；

步骤3：针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类，以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新；

步骤4.1：构造代价敏感支持向量机优化目标函数；

步骤4.2：求解疑似早期故障数据点的样例代价；

步骤4.3：运用改进的序列最小优化算法(即Sequential minimal optimization，简称SMO)，确定疑似早期故障数据点EDC-SVM分类器的分类超平面；

采集待诊断的工业过程数据进行故障检测，通过标签传播算法得到数据所属类别概率，若数据不属于疑似早期故障类别，则输出其标签，确定其为正常数据或故障数据；若数据属于疑似早期故障类，通过EDC-SVM分类器得到其所属类别，若属于正类则认为是正常数据，若属于负类，则圈定其为早期故障点，完成工业过程的故障检测；

步骤2所述对未标记数据的标签进行一次更新，具体方法为：