CN107918379B - 基于图半监督代价敏感的工业大数据早期故障检测方法 - Google Patents
基于图半监督代价敏感的工业大数据早期故障检测方法 Download PDFInfo
- Publication number
- CN107918379B CN107918379B CN201711223159.XA CN201711223159A CN107918379B CN 107918379 B CN107918379 B CN 107918379B CN 201711223159 A CN201711223159 A CN 201711223159A CN 107918379 B CN107918379 B CN 107918379B
- Authority
- CN
- China
- Prior art keywords
- data
- class
- fault
- label
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0243—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/24—Pc safety
- G05B2219/24065—Real time diagnostics
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Complex Calculations (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供一种基于图半监督代价敏感的工业大数据早期故障检测方法,涉及故障检测与诊断技术领域。该方法首先采集工业过程的数据,采用图半监督的标签传播方法对未标记数据的标签进行一次更新,并圈定疑似早期故障;然后针对疑似早期故障点进行代价敏感的贝叶斯分类,完成对疑似早期故障数据点标签的二次更新;最后建立EDC‑SVM分类器,对工业过程进行在线故障诊断。本发明提供的基于图半监督代价敏感的工业大数据早期故障检测方法,以诊断代价最小化为故障诊断目标,划分出疑似早期故障,解决了工业故障检测误分类代价高的问题。同时在保证分类准确性的情况之下,降低了故障检测中的误判代价,提高了工业过程的安全性。
Description
技术领域
本发明涉及故障检测与诊断技术领域,尤其涉及一种基于图半监督代价敏感的工业大数据早期故障检测方法。
背景技术
随着现代工业的迅速发展,现代企业中生产设备日趋大型化、连续化、高速化和自动化,设备的结构与组成十分复杂,生产规模非常庞大,各部门之间的联系也特别密切。实际的生产过程有线性的、非线性的、时不变的、时变的等,对于不同的生产过程所具有的特征,应选用不同的故障监测方法,这样才能有效地检测到故障。
传统的分类算法通常以全局分类误分率最小化为目标,并假设各类的错分代价相等以及数据集是平衡的。而在某些工业生产监控过程中,这两种假设不成立。由于危害程度不同,设备的误诊断代价不对等,将故障状态误诊断为正常状态所需要承担的安全隐患和经济损失等代价往往大于相反情况时的代价。另外,由于故障样本的获取是以设备某种程度的损坏为代价,所以,相对于正常样本,故障样本的数量会少得多,这种样本不均衡性导致以分类准确率为性能指标的故障诊断方法的结论更倾向于正常状态的判定,不能有效地避免故障带来的损失。因此,以误分率最小化为目标已不能满足实际的故障诊断要求。
发明内容
针对现有技术的缺陷,本发明提供一种基于图半监督代价敏感的工业大数据早期故障检测方法,以诊断代价最小化为故障诊断目标实现故障检测。
基于图半监督代价敏感的工业大数据早期故障检测方法,包括以下步骤:
步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;
总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈RD×(l+u),其中,xi为第i个采样数据,i=1、…、t,t=l+u为采样数据总数,l为已标记数据的个数,u为未标记数据的个数,且u>>l,D为数据维数;第il个已标记数据的类标签记为yi∈{1、2、...、S},il=1、…、l,其中S为分类的总类别数;
步骤2:采用图半监督的标签传播方法对未标记数据的标签进行一次更新,得到采样数据所属类别的概率值,并圈定疑似早期故障点;
步骤2.1:对未标记数据的标签进行一次更新,具体方法为:
将(x1,y1)、…、(xl,yl)表示为已标记数据,FL=(y1,…,yl)为已标记数据的类标签,已标记数据分为正常类和故障类两个类别;将(xl,yl)、…、(xl+u,yl+u)表示为未标记数据,FU=(yl,...,yl+u)为未知的未标记数据的类标签;
将已标记数据和未标记数据建立一个全连接图,每个数据节点都与其他所有数据节点相连接;
全连接图中数据节点之间边的权重值设定如下公式所示:
wij=exp(-||xi-xj||/σ)
其中,xi和xj分别为全连接图中的第i个和第j个数据节点,i、j=1,2,…,t;wij为数据节点xi和x之间边的权重值,σ为控制节点间权重值范围的权重参数;
定义t×2的标签矩阵F,第一列元素Fi1为采样数据属于正常类的概率值,第二列元素Fi2为采样数据属于故障类的概率值;若采样数据中的已标记数据属于正常类,则Fi1=1,Fi2=0;若采样数据中的已标记数据属于故障类则Fi1=0,Fi2=1;
将标签矩阵F进行切分,得到FL为已标记数据的标签矩阵,用已标记数据的标签对其初始化;FU为未标记数据的标签,为未知矩阵,同时将标准化的概率转移矩阵进行切分,得到利用已标记数据的标签矩阵FL,将标签矩阵F的迭代结果中未标记部分进一步表示为:
FU(k+1)和FU(k)分别为未标记数据标签的第k+1步与第k步的迭代结果;
进一步得到未标记数据标签传播的结果,如下式所示:
其中,为未标记数据的一次更新标签,FU(0)为初始化未标记数据标签;因为为行标准化后矩阵,其无穷范数小于等于1,为的子矩阵,所以的无穷范数小于等于1,的谱半径小于其无穷范数,的谱半径小于1,得出推论出标签传播结果最终收敛至:I为t阶单位矩阵;
步骤2.2:根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障点的范围,具体方法为:
若采样数据的标签一次更新结果满足条件,则视为该采样数据点为疑似早期故障点,其中δ为疑似早期故障圈定参数,均为标签矩阵F*中第i行的元素,分别代表采样数据标签一次更新后属于正常类与故障类的概率,根据采样数据的标签一次更新结果满足的条件,确定m个疑似早期故障点;否则,该采样数据点不是疑似早期故障点,则确定该采样数据点的标签为i′=1,2,...,t-m;
步骤3:针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类,以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新,具体方法为:
首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:
代价敏感分类器通过如下函数实现最小化条件代价敏感风险:
EY[L(f(x),y)|x]=ηL(f(x),1)+(1-η)L(f(x),-1)
其中L(f(x),1)为数据属于正常类的代价折页损失函数,f(x)为分类器的分类函数,L(f(x),y)=cymax(0,1-f(x)y)为损失函数,其中y为标签,cy为代价参数;
根据Bayes决策理论,最优决策应最小化期望分类代价,得到Bayes分类器为:
其中,C+为正常类误分类代价,C-为故障类误分类代价,且C+<C-;
因此,得到代价敏感分类函数的最优解为:
步骤4:建立样例代价敏感支持向量机(即Example dependent cost-sensitivesupport vector machine,简称EDC-SVM)分类器,具体方法为:
步骤4.1:构造代价敏感支持向量机优化目标函数,如下式所示:
其中,为疑似早期故障类中的数据集中的第im个数据点,根据步骤3得到的标签二次更新结果,m+和m-分别为m个疑似早期故障数据点中正常类和故障类数据点的个数,为疑似早期故障数据点的样例代价,Cratio=C-/C+为由经验值确定的类间代价之比,为松弛变量,ω与b为确定分类超平面的参数,C为控制目标函数中硬间隔目标函数与代价惩罚项之间的权重的参数,为非线性映射函数;
将代价敏感支持向量机优化目标函数转化为如下对偶问题,得到最优分类超平面:
步骤4.2:求解疑似早期故障数据点的样例代价,具体方法为:
疑似早期故障数据点第im个数据点如果属于正常类,其样例代价由该数据点的正常类标签到已确定的正常类的马氏距离确定,否则该数据点属于故障类,其样例代价由该数据点的故障类标签到已确定的故障类的马氏距离确定;
其中,X′=XN或X′=XF,Σ为协方差矩阵,μ为样本均值;
其中,K为核矩阵,其各元素均为核函数;β为核矩阵K中心化后进行对角分解得到的特征正交阵,Ω为核矩阵K中心化后进行对角分解得到的对角阵,Ω-2为Ω的平方伪逆;m′为正常类或故障类样本总体的个数,其取值取决于疑似早期故障中第im个样本的类标签;
步骤4.3:运用改进的序列最小优化算法(即Sequential minimal optimization,简称SMO),确定分类超平面的结果,具体方法为:
每完成对两个拉格朗日乘子的优化后,对参数b进行更新,具体方法为:
最终得到疑似早期故障数据点EDC-SVM的分类超平面为:
f(x)=ωTx+bnew
其中,f(x)为分类函数,x为疑似早期故障数据集中的数据点;
步骤5:使用EDC-SVM分类器对工业过程进行故障检测,具体方法为:
采集待诊断的工业过程数据进行故障检测,通过标签传播算法得到数据所属类别概率,若数据不属于疑似早期故障类别,则输出其标签,确定其为正常数据或故障数据;若数据属于疑似早期故障类,通过EDC-SVM分类器得到其所属类别,若属于正类则认为是正常数据,若属于负类,则圈定其为早期故障点,完成工业过程的故障检测。
由上述技术方案可知,本发明的有益效果在于:本发明提供的基于图半监督代价敏感的工业大数据早期故障检测方法,使用半监督标签传播方法,合理的使用了带有标签的已标记数据和大量未标记数据的信息,确定未标记数据的标签对数据进行故障检测,同时,结合代价敏感学习方法,并以诊断代价最小化为故障诊断目标,划分出疑似早期故障,解决了工业故障检测误分类代价高的问题。同时,不同的误分类代价使得分类决策面向误分类代价大的方向偏移,在保证分类准确性的情况之下,降低了故障检测中的误判代价,提高了工业过程的安全性。
附图说明
图1为本发明实施例提供的电熔镁炉工艺流程示意图;
图2为本发明实施例提供的基于图半监督代价敏感的工业大数据早期故障检测方法的流程图;
图3为本发明实施例提供的圈定疑似早期故障点的流程图;
图4为本发明实施例提供的使用标签传播方法得到的未标记数据的标签的示意图;
图5为本发明实施例提供的圈定的疑似早期故障范围的示意图;
图6为本发明实施例提供的使用CS-Bayes分类器得到的疑似早期故障类标签的示意图;
图7为本发明实施例提供的使用EDC-SVM方法得到的分类超平面的示意图;
图8为本发明实施例提供的使用传统SVM分类器得到的分类超平面的示意图。
图中:1、变压器;2、短网;3、电极夹;4、电极;5、炉壳;6、小车;7、电弧;8、熔池。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
电熔镁炉是用于生产电熔镁砂的主要设备之一,随着熔炼技术的发展,电熔镁炉已经在镁砂生产行业中得到广泛应用。电熔镁炉是一种以电弧为热源的熔炼炉,它热量集中,可以很好地熔炼镁砂。电熔镁炉熔炼过程经历熔融、排析、提纯、结晶等过程阶段。电熔镁炉冶炼工业流程如图1所示,所使用的设备包括变压器1、短网2、电极夹3、电极4、炉壳5、小车6、电弧7和熔池8。炉子边设有控制室,控制电极升降。炉壳5一般为圆形,稍有锥形,为便于熔砣脱壳,在炉壳壁上焊有吊环,炉下设有移动小车,作用是使熔化完成的熔块移到固定工位,冷却出炉。
本实施例以某企业的超高温电熔镁冶炼过程为例,使用本发明的基于图半监督代价敏感的工业大数据早期故障检测方法对超高温电熔镁的早期故障进行监测。
基于图半监督代价敏感的工业大数据早期故障检测方法,如图2所示,包括以下步骤:
步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;
总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈RD×(l+u),其中,xi为第i个采样数据,i=1、…、t,t=l+u为采样数据总数,l为已标记数据的个数,u为未标记数据的个数,且u>>l,D为数据维数;第il个已标记数据的类标签记为yi∈{1、2、...、S},il=1、…、l,其中S为分类的总类别数;
本实施例中,采集的数据包括电熔镁冶炼过程在某一特定时刻的电解炉内外的视频数据和三个电极的电流值。同时提取视频数据的关键帧,用灰度共生矩阵提取图像的ASM能量、对比度、逆差距、熵、自相关信息,并将采集的数据进行协同建模。将采集的数据进行标记,其中,已标记数据为13个,如表1所示,未标记数据为152个,部分数据如表2所示。已标记数据又分为正常数据和故障数据2个类别。
表1 13组已标记的采样数据
表2部分未标记的采样数据
步骤2:采用图半监督的标签传播方法对未标记数据的标签进行一次更新,如图3所示,得到采样数据所属类别的概率值,并圈定疑似早期故障点;
步骤2.1:对未标记数据的标签进行一次更新,具体方法为:
将(x1,y1)、…、(xl,yl)表示为已标记数据,FL=(y1,…,yl)为已标记数据的类标签,已标记数据分为正常类和故障类两个类别;将(xl,yl)、…、(xl+u,yl+u)表示为未标记数据FU=(yl,...,yl+u)为未知的未标记数据的类标签;
将已标记数据和未标记数据建立一个全连接图,每个数据节点都与其他所有数据节点相连接;
全连接图中数据节点之间的边的权重值设定如下公式所示:
wij=exp(-||xi-xj||/σ)
其中,xi和xj分别为全连接图中的第i个和第j个数据节点,i、j=1,2,…,t;wij为数据节点xi和xj之间边的权重值,σ为控制节点间权重值范围的权重参数;
定义t×2的标签矩阵F,第一列元素Fi1为采样数据属于正常类的概率值,第二列元素Fi2为采样数据属于故障类的概率值;若采样数据中的已标记数据属于正常类,则Fi1=1,Fi2=0;若采样数据中的已标记数据属于故障类则Fi1=0,Fi2=1;
将标签矩阵F进行切分,得到FL为已标记数据的标签矩阵,用已标记数据的标签对其初始化;FU为未标记数据的标签,为未知矩阵,同时将标准化的概率转移矩阵进行切分,得到利用已标记数据的标签矩阵FL,将标签矩阵F的迭代结果中未标记部分进一步表示为:
FU(k+1)和FU(k)分别为未标记数据标签的第k+1步与第k步的迭代结果;
进一步得到未标记数据标签传播的结果,如下式所示:
其中,为未标记数据的一次更新标签,FU(0)为初始化未标记数据标签;因为为行标准化后矩阵,其无穷范数小于等于1,为的子矩阵,所以的无穷范数小于等于1,的谱半径小于其无穷范数,的谱半径小于1,得出推论出标签传播结果最终收敛至:I为t阶单位矩阵;
步骤2.2:根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障的范围,具体方法为:
若采样数据的标签一次更新结果满足条件,则视为该采样数据点为疑似早期故障点,其中δ为疑似早期故障圈定参数,均为标签矩阵F*中第i行的元素,分别代表采样数据标签一次更新后属于正常类与故障类的概率,根据条件,确定m个疑似早期故障点;否则,该采样数据点不是疑似早期故障点,则确定该采样数据点的标签为i′=1,2,...,t-m;
本实施中,概率转移矩阵P的部分数据如表3所示,采样数据所属类别的概率结果部分数据如表4所示,采样数据所属类别的分类结果如图4所示。设定疑似早期故障圈定参数σ为1.5,依据类所属概率对容易误分类的数据点进行疑似早期故障的圈定,得到疑似早期故障类,并将其他已确定所属类的数据进行标签固定,得到采样数据的分类结果如图5所示,其中故障类数据60个,正常工况数据59个,疑似早期故障数居46个。
表3标签传播算法得到的部分概率转移矩阵
表4标签传播算法得到的类所属概率
步骤3:针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类,以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新,具体方法为:
首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:
代价敏感分类器通过如下函数实现最小化条件代价敏感风险:
EY[L(f(x),y)|x]=ηL(f(x),1)+(1-η)L(f(x),-1)
其中L(f(x),1)为数据属于正常类的代价折页损失函数,f(x)为分类器的分类函数,L(f(x),y)=cymax(0,1-f(x)y)为损失函数,其中y为标签,cy为代价参数;
根据Bayes决策理论,最优决策应最小化期望分类代价,得到Bayes分类器为:
其中,C+为正常类误分类代价,C-为故障类误分类代价,且C+<C-;
因此,得到代价敏感分类函数的最优解为:
本实施例中,针对46个疑似早期故障数据点,进行CS-Bayes分类。其中,故障数据误判率H(n,f)和正常数据误判率H(f,n)根据电熔镁炉工业现场经验来设定,分别取2%与5%,正常类误分类代价参数C+设定为1,故障类误分类代价参数C-设定为5,得到CS-Bayes分类的结果如图6所示。
步骤4:建立样例代价敏感支持向量机(即Example dependent cost-sensitivesupport vector machine,简称EDC-SVM)分类器,具体方法为:
步骤4.1:构造代价敏感支持向量机优化目标函数,如下式所示:
其中,为疑似早期故障类中的数据集中的第im个数据点,根据步骤3得到的标签二次更新结果,m+和m-分别为m个疑似早期故障数据点中正常类和故障类数据点的个数,为疑似早期故障数据点的样例代价,Cratio=C-/C+为由经验值确定的类间代价之比,为松弛变量,ω与b为确定分类超平面的参数,C为控制目标函数中硬间隔目标函数与代价惩罚项之间的权重的参数,为非线性映射函数;
将代价敏感支持向量机优化目标函数转化为如下对偶问题,得到最优分类超平面:
步骤4.2:求解疑似早期故障数据点的样例代价,具体方法为:
疑似早期故障数据点第im个数据点如果属于正常类,其样例代价由该数据点的正常类标签到已确定的正常类的马氏距离确定,否则该数据点属于故障类,其样例代价由该数据点的故障类标签到已确定的故障类的马氏距离确定;
其中,X′=XN或X′=XF,Σ为协方差矩阵,μ为样本均值;
定义核矩阵K,对核矩阵K进行中心化,得到Kc=K-Im′K-KIm′+Im′KIm′,其中,Im′为元素均为的m′×m′矩阵,m′为正常类或故障类样本总体的个数,其取值取决于疑似早期故障中第im个样本的类标签;对Kc进行对角分解,得到Kc=βTΩβ,Ω为Kc对角分解后的对角阵,β为特征正交阵;
针对协方差矩阵Σ为奇异阵无法直接求取马氏距离的情况,按照矩阵理论,Σ为实对称半正定矩阵,秩为r,将Σ分解为Σ=ATGA,其中,G为r×r的非奇异对角阵,由协方差矩阵Σ的r个非0特征值构成,A为r×m′矩阵,由对角阵G中特征值所对应的特征向量构成,且A为正交矩阵,满足AAT为r×r的单位矩阵。根据这一分解可以求得Σ的伪逆为:Σ+=ATG- 1A。对协方差阵进行正交分解得Σ=VTEV,其中,E=(1/m′)Ω,V=Ω-1/2βX。
进一步得到协方差Σ的伪逆矩阵如下式所示:
Σ+=m′XTβTΩ-2βX
其中,Ω-2为对角阵Ω的平方伪逆。
步骤4.3:运用改进的序列最小优化算法(即Sequential minimal optimization,简称SMO),确定分类超平面的结果,具体方法为:
每完成对两个拉格朗日乘子的优化后,对参数b进行更新,具体方法为:
最终得到疑似早期故障数据点EDC-SVM的分类超平面为:
f(x)=ωTx+bnew
其中,f(x)为分类函数,x为疑似早期故障数据集中的数据点;
本实施例中,使用EDC-SVM方法得到的分类超平面如图7所示,其中,有四个正常数据被误分类为故障数据。本实施例同时还提供了使用传统SVM方法得到的分类超平面如图8所示,因为传统的SVM分类器没有考虑误分类的代价,将两个故障数据误分类到了正常数据中,总体代价为10,导致误分类的整体代价偏大。
从以上结果可以看出,本实施例方法是以总体代价最小化为目标进行故障分类,得到的分类超平面更靠近误分类代价小的正常类,虽然分类准确率下降,但是总体误分类代价得到了减小。
步骤5:使用EDC-SVM分类器对工业过程进行故障检测,具体方法为:
采集待诊断的工业过程数据进行故障检测,通过标签传播算法得到数据所属类别概率,若数据不属于疑似早期故障类别,则输出其标签,确定其为正常数据或故障数据;若数据属于疑似早期故障类,通过EDC-SVM分类器得到其所属类别,若属于正类则认为是正常数据,若属于负类,则圈定其为早期故障点,完成工业过程的故障检测。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种基于图半监督代价敏感的工业大数据早期故障检测方法,包括以下步骤:
步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;
总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈RD×(l+u),其中,xi为第i个采样数据,i=1、…、t,t=l+u为采样数据总数,l为已标记数据的个数,u为未标记数据的个数,且u>>l,D为数据维数;第il个已标记数据的类标签记为yi∈{1、2、...、S},il=1、…、l,其中S为分类的总类别数;
步骤2:采用图半监督的标签传播方法对未标记数据的标签进行一次更新,得到采样数据所属类别的概率值,并圈定疑似早期故障点;
步骤3:针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类,以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新;
步骤4:建立样例代价敏感支持向量机(即Example dependent cost-sensitivesupport vector machine,简称EDC-SVM)分类器,具体方法为:
步骤4.1:构造代价敏感支持向量机优化目标函数;
步骤4.2:求解疑似早期故障数据点的样例代价;
步骤4.3:运用改进的序列最小优化算法(即Sequential minimal optimization,简称SMO),确定疑似早期故障数据点EDC-SVM分类器的分类超平面;
步骤5:使用EDC-SVM分类器对工业过程进行故障检测,具体方法为:
采集待诊断的工业过程数据进行故障检测,通过标签传播算法得到数据所属类别概率,若数据不属于疑似早期故障类别,则输出其标签,确定其为正常数据或故障数据;若数据属于疑似早期故障类,通过EDC-SVM分类器得到其所属类别,若属于正类则认为是正常数据,若属于负类,则圈定其为早期故障点,完成工业过程的故障检测;
步骤2所述对未标记数据的标签进行一次更新,具体方法为:
将(x1,y1)、…、(xl,yl)表示为已标记数据,FL=(y1,…,yl)为已标记数据的类标签,已标记数据分为正常类和故障类两个类别;将(xl,yl)、…、(xl+u,yl+u)表示为未标记数据,FU=(yl,...,yl+u)为未知的未标记数据的类标签;
将已标记数据和未标记数据建立一个全连接图,每个数据节点都与其他所有数据节点相连接;
全连接图中数据节点之间边的权重值设定如下公式所示:
wij=exp(-||xi-xj||/σ)
其中,xi和xj分别为全连接图中的第i个和第j个数据节点,i、j=1,2,…,t;wij为数据节点xi和xj之间边的权重值,σ为控制节点间权重值范围的权重参数;
定义t×2的标签矩阵F,第一列元素Fi1为采样数据属于正常类的概率值,第二列元素Fi2为采样数据属于故障类的概率值;若采样数据中的已标记数据属于正常类,则Fi1=1,Fi2=0;若采样数据中的已标记数据属于故障类则Fi1=0,Fi2=1;
将标签矩阵F进行切分,得到FL为已标记数据的标签矩阵,用已标记数据的标签对其初始化;FU为未标记数据的标签,为未知矩阵,同时将标准化的概率转移矩阵进行切分,得到利用已标记数据的标签矩阵FL,将标签矩阵F的迭代结果中未标记部分进一步表示为:
FU(k+1)和FU(k)分别为未标记数据标签的第k+1步与第k步的迭代结果;
进一步得到未标记数据标签传播的结果,如下式所示:
其中,为未标记数据的一次更新标签,FU(0)为初始化未标记数据标签;因为为行标准化后矩阵,其无穷范数小于等于1,为的子矩阵,所以的无穷范数小于等于1,的谱半径小于其无穷范数,的谱半径小于1,得出推论出标签传播结果最终收敛至:I为t阶单位矩阵;
步骤2所述根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障数据点范围的具体方法为:
若采样数据的标签一次更新结果满足条件,则视为该采样数据点为疑似早期故障点,其中δ为疑似早期故障圈定参数,均为标签矩阵F*中第i行的元素,分别代表采样数据标签一次更新后属于正常类与故障类的概率,根据采样数据的标签一次更新结果满足的条件,确定m个疑似早期故障点;否则,该采样数据点不是疑似早期故障点,则确定该采样数据点的标签为
所述步骤3的具体方法为:
首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:
代价敏感分类器通过如下函数实现最小化条件代价敏感风险:
EY[L(f(x),y)|x]=ηL(f(x),1)+(1-η)L(f(x),-1)
其中L(f(x),1)为数据属于正常类的代价折页损失函数,f(x)为分类器的分类函数,L(f(x),y)=cymax(0,1-f(x)y)为损失函数,其中y为标签,cy为代价参数;
根据Bayes决策理论,最优决策应最小化期望分类代价,得到Bayes分类器为:
其中,C+为正常类误分类代价,C-为故障类误分类代价,且C+<C-;
因此,得到代价敏感分类函数的最优解为:
2.根据权利要求1所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:所述步骤4.1的具体方法为:
构造代价敏感支持向量机优化目标函数,如下式所示:
其中,为疑似早期故障类中的数据集中的第im个数据点,根据步骤3得到的标签二次更新结果,m+和m-分别为m个疑似早期故障数据点中正常类和故障类数据点的个数,为疑似早期故障数据点的样例代价,Cratio=C-/C+为由经验值确定的类间代价之比,为松弛变量,ω与b为确定分类超平面的参数,C为控制目标函数中硬间隔目标函数与代价惩罚项之间的权重的参数,为非线性映射函数;
将代价敏感支持向量机优化目标函数转化为如下对偶问题,得到最优分类超平面:
3.根据权利要求2所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:所述步骤4.2的具体方法为:
疑似早期故障数据点第im个数据点如果属于正常类,其样例代价由该数据点的正常类标签到已确定的正常类的马氏距离确定,否则该数据点属于故障类,其样例代价由该数据点的故障类标签到已确定的故障类的马氏距离确定;
其中,X′=XN或X′=XF,∑为协方差矩阵,μ为样本均值;
其中,K为核矩阵,其各元素均为核函数;β为核矩阵K中心化后进行对角分解得到的特征正交阵,Ω为核矩阵K中心化后进行对角分解得到的对角阵,Ω-2为Ω的平方伪逆;m′为正常类或故障类样本总体的个数,其取值取决于疑似早期故障中第im个样本的类标签;
4.根据权利要求3所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:所述步骤4.3的具体方法为:
每完成对两个拉格朗日乘子的优化后,对参数b进行更新,具体方法为:
最终得到疑似早期故障数据点EDC-SVM的分类超平面为:
f(x)=ωTx+bnew
其中,f(x)为分类函数,x为疑似早期故障数据集中的数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711223159.XA CN107918379B (zh) | 2017-11-29 | 2017-11-29 | 基于图半监督代价敏感的工业大数据早期故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711223159.XA CN107918379B (zh) | 2017-11-29 | 2017-11-29 | 基于图半监督代价敏感的工业大数据早期故障检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107918379A CN107918379A (zh) | 2018-04-17 |
CN107918379B true CN107918379B (zh) | 2020-03-31 |
Family
ID=61898089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711223159.XA Active CN107918379B (zh) | 2017-11-29 | 2017-11-29 | 基于图半监督代价敏感的工业大数据早期故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107918379B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801713A (zh) * | 2019-01-30 | 2019-05-24 | 华侨大学 | 一种基于图表模型的健康风险预测方法 |
CN110209145B (zh) * | 2019-05-16 | 2020-09-11 | 浙江大学 | 一种基于核矩阵近似的二氧化碳吸收塔故障诊断方法 |
CN110309871A (zh) * | 2019-06-27 | 2019-10-08 | 西北工业大学深圳研究院 | 一种基于随机重采样的半监督学习图像分类方法 |
CN110765486B (zh) * | 2019-10-23 | 2024-01-26 | 南方电网科学研究院有限责任公司 | 一种资产故障识别方法 |
CN112487709B (zh) * | 2020-11-25 | 2023-11-21 | 江苏科技大学 | 一种基于敏感性分析的船用柴油机故障溯源方法 |
CN112633098B (zh) * | 2020-12-14 | 2023-05-30 | 华中科技大学 | 一种旋转机械故障诊断方法、系统及存储介质 |
CN113050602B (zh) * | 2021-03-26 | 2022-08-09 | 杭州电子科技大学 | 基于鲁棒半监督判别分析的工业过程故障分类方法 |
CN116295620A (zh) * | 2023-02-17 | 2023-06-23 | 南通科瑞环境科技有限公司 | 一种环境监测采集检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN103234767A (zh) * | 2013-04-21 | 2013-08-07 | 蒋全胜 | 基于半监督流形学习的非线性故障检测方法 |
CN104268556A (zh) * | 2014-09-12 | 2015-01-07 | 西安电子科技大学 | 一种基于核低秩表示图和空间约束的高光谱图像分类方法 |
CN106203519A (zh) * | 2016-07-17 | 2016-12-07 | 合肥赑歌数据科技有限公司 | 基于分类聚类的故障预警算法 |
CN106482967A (zh) * | 2016-10-09 | 2017-03-08 | 湖南工业大学 | 一种代价敏感支持向量机机车车轮检测系统及方法 |
-
2017
- 2017-11-29 CN CN201711223159.XA patent/CN107918379B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8275607B2 (en) * | 2007-12-12 | 2012-09-25 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
CN103234767A (zh) * | 2013-04-21 | 2013-08-07 | 蒋全胜 | 基于半监督流形学习的非线性故障检测方法 |
CN104268556A (zh) * | 2014-09-12 | 2015-01-07 | 西安电子科技大学 | 一种基于核低秩表示图和空间约束的高光谱图像分类方法 |
CN106203519A (zh) * | 2016-07-17 | 2016-12-07 | 合肥赑歌数据科技有限公司 | 基于分类聚类的故障预警算法 |
CN106482967A (zh) * | 2016-10-09 | 2017-03-08 | 湖南工业大学 | 一种代价敏感支持向量机机车车轮检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
Inductive and flexible feature extraction for semi-supervised pattern categorization;F. Dornaika 等;《Pattern Recognition》;20161231;全文 * |
面向样本不平衡的故障特征提取方法;王健;《中国博士学位论文全文数据库 信息科技辑》;20170615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107918379A (zh) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107918379B (zh) | 基于图半监督代价敏感的工业大数据早期故障检测方法 | |
US10719780B2 (en) | Efficient machine learning method | |
CN110580496A (zh) | 一种基于熵最小化的深度迁移学习系统及方法 | |
WO2022121289A1 (en) | Methods and systems for mining minority-class data samples for training neural network | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN112069921A (zh) | 一种基于自监督知识迁移的小样本视觉目标识别方法 | |
CN109462521B (zh) | 一种适用于源网荷互动工控系统的网络流量异常检测方法 | |
CN107976992B (zh) | 基于图半监督支持向量机的工业过程大数据故障监测方法 | |
CN110443372B (zh) | 一种基于熵最小化的迁移学习方法及系统 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN108710948B (zh) | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 | |
CN113591915B (zh) | 基于半监督学习和单分类支持向量机的异常流量识别方法 | |
CN109543693B (zh) | 基于正则化标签传播的弱标注数据降噪方法 | |
WO2021139249A1 (zh) | 数据异常检测方法、装置、设备及存储介质 | |
Rezatofighi et al. | Joint learning of set cardinality and state distribution | |
CN113010504B (zh) | 基于LSTM和改进K-means算法的电力数据异常检测方法及系统 | |
CN114863091A (zh) | 一种基于伪标签的目标检测训练方法 | |
CN115905855A (zh) | 一种改进的元学习算法MG-Reptile | |
CN112541890B (zh) | 刀闸行程状态的检测方法、设备和可读存储介质 | |
CA3002100A1 (en) | Unsupervised domain adaptation with similarity learning for images | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
Zhang et al. | Competing ratio loss for multi-class image classification | |
CN108182302B (zh) | 基于修改聚类半监督核主元分析的早期故障检测方法 | |
CN109117850A (zh) | 利用可见光目标图像进行相应红外目标图像的识别方法 | |
CN110378384B (zh) | 一种结合特权信息和排序支持向量机的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |