CN114118292B - 一种基于线性判别邻域保持嵌入的故障分类方法 - Google Patents

一种基于线性判别邻域保持嵌入的故障分类方法 Download PDF

Info

Publication number
CN114118292B
CN114118292B CN202111476386.XA CN202111476386A CN114118292B CN 114118292 B CN114118292 B CN 114118292B CN 202111476386 A CN202111476386 A CN 202111476386A CN 114118292 B CN114118292 B CN 114118292B
Authority
CN
China
Prior art keywords
sample
neighborhood
matrix
linear discriminant
sample point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111476386.XA
Other languages
English (en)
Other versions
CN114118292A (zh
Inventor
高鸿瑞
张颖伟
冯琳
李豪
朱红博
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202111476386.XA priority Critical patent/CN114118292B/zh
Publication of CN114118292A publication Critical patent/CN114118292A/zh
Application granted granted Critical
Publication of CN114118292B publication Critical patent/CN114118292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于线性判别邻域保持嵌入的故障分类方法,属于故障监测与诊断技术领域。本发明方法在基于类别信息的邻域保持嵌入模型的基础上引入线性判别分析思想,将基于类别信息的邻域保持嵌入模型与线性判别分析模型结合,考虑样本高维局部流形结构的同时充分考虑样本的全局结构,构建线性判别邻域保持嵌入模型并求解。通过本发明构建模型中的基于类别信息的邻域保持嵌入思想充分考虑样本局部高维流形结构,同时利用样本类别的先验信息计算线性判别分析思想中的样本类内散度矩阵和类间散度矩阵,充分考虑采集样本点的全局信息,从样本全局和局部信息的两个角度出发对高维样本进行降维,从而得到更优质的降维效果,提高对故障分类的准确性。

Description

一种基于线性判别邻域保持嵌入的故障分类方法
技术领域
本发明属于故障监测与诊断技术领域,提出了一种基于线性判别邻域保持嵌入的故障分类方法。
背景技术
随着科学技术的不断发展和工业化水平的不断提高,工业生产逐渐向大规模、复杂化发展。一个工业生产系统中的各个组成部分之间的关联关系、耦合程度非常高。各个组成部分相互耦合,协同工作。在一方面,这种生产方式工作效率得到了很大提高,产生了巨大的经济效益;然而在另一方面,由于工业生产过程中各个组成部分关联性强,存在大量耦合,整个工业生产系统变得越来越复杂,对系统产生影响造成系统故障的因素也变得越来越多,系统发生故障的几率也随之增加,一旦发生较大的故障就可能导致停工停产,造成巨大的经济损失。国内国外都曾发生过因工业生产过程中机器故障导致的工业事故,造成了巨大的人员伤亡、经济损失和不良的社会影响。不同种类的故障会对系统造成不同的工业事故,如何进行故障检测、故障诊断,对不同种类故障进行有效分类对保障生产过程安全、工业生产系统稳定运行是十分必要和有意义的。
工业生产系统的故障数据中含有丰富的信息,大量的故障信息为故障分类研究带来了新的机遇。但由于工业生产系统的故障有数据量大、数据间相关性强、冗余度大、维数高等特点,传统故障分类方法很容易导致“维数灾难”现象。因此,如何从高维数据中有效地提取出隐含特征来降低数据维数成为故障检测、故障诊断、故障分类方面研究的重点。也就是说故障分类首先需要对待测数据进行特征提取,实现维数约简,然后再对提取出来的特征进行分类。
目前的特征提取主要有以下几种方法:主成分分析方法是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。主成分分析方法可以消除评价指标间的相关影响,减少选择指标的工作量,但该方法在特征值分解的过程有一些局限性,比如变换的矩阵必须是方阵;同时,在非高斯分布情况下,该方法得出的主元可能并不是最优的。线性判别分析算法是使投影后类内方差最小,类间方差最大,在处理类别可分性大的数据具有很好的优势。但该方法依赖于样本类别先验知识,不适合对非高斯分布样本进行降维,同时在样本分类信息依赖方差而不是均值的时候,降维效果不好。局部线性嵌入方法是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。该方法可以学习任意维的局部线性的低维流形,但该方法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响,且不能进行新样本的泛化。邻域保持嵌入的思想和局部线性嵌入相同,主要是在降维过程中保持流形的局部线性结构不变,从而来提取数据中的有用信息,同时能够进行新样本的泛化。但该方法也存在对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响的缺点。
发明内容
针对现有技术存在的不足,本发明提出一种基于线性判别邻域保持嵌入的故障分类方法,在基于类别信息的邻域保持嵌入模型的基础上引入线性判别分析思想,考虑样本高维局部流形结构的同时充分考虑样本的全局结构,构建线性判别邻域保持嵌入模型并求解,从而充分认识到采集样本点的整体信息,获得更优质的降维效果,在某些故障的样本点比较分散的情况下,达到对故障更好的分类效果。
一种基于线性判别邻域保持嵌入的故障分类方法,该方法包括如下步骤:
步骤1:对田纳西-伊斯曼过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集对田纳西-伊斯曼过程仿真获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从选取出的两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集,训练样本集每个样本点的故障类别构成样本类别集合;
步骤3:初始化邻域保持嵌入算法相关参数,包括近邻点个数k、降维目标维数d;
步骤4:找出训练样本集中每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
步骤5:根据训练样本集中每个样本点的邻域图,对训练样本集中每个样本点与其近邻点的连接赋予权值,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
步骤6:根据训练样本集以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,通过使重构误差函数最小化,构建邻域保持嵌入模型的目标函数;
步骤7:根据训练样本集中每个样本点的近邻点集合以及训练样本集中每个样本点的类别信息构建判别邻域嵌入模型的权值矩阵,同时引入线性判别分析算法的思想,将步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,从而构建基于类别信息的邻域保持嵌入模型;
步骤8:根据训练样本集中样本的类别信息,计算样本类内散度矩阵Sw和类间散度矩阵Sb,构建线性判别分析模型的目标函数;
步骤9:将基于类别信息的邻域保持嵌入模型与线性判别分析模型结合,把基于类别信息的邻域保持嵌入模型目标函数的分子与线性判别分析模型目标函数的分子相加作为线性判别邻域保持嵌入模型目标函数的分子,将基于类别信息的邻域保持嵌入模型目标函数的分母与线性判别分析模型目标函数的分母相加作为线性判别邻域保持嵌入模型目标函数的分母,从而构建线性判别邻域保持嵌入模型的目标函数,并计算出线性判别邻域保持嵌入模型的投影矩阵A4
步骤10、使用步骤9得到的投影矩阵A4对测试样本集降维,通过支持向量机方法对测试样本集中的样本进行分类。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述找出训练样本集中每个样本点除自身外的k个近邻点的方法为:计算训练样本集X=[x1,…,xn]中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述邻接矩阵W满足如下要求:
对于非零的权值wij,通过式(2)所示的重构误差函数求得:
其中,邻接矩阵W为n×n的矩阵,W的第i行第j列的值wij代表着样本点xi与训练样本集所有样本点xj的连接权值;N(xi)为每个样本点xi的近邻点集合;xi(i=1,2,…,n)表示训练样本集X中的第i个样本点,xj(j=1,2,……,n)表示训练样本集X中的第j个样本点。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述邻域保持嵌入模型的目标函数,具体形式如下:
s.t.YTY=A0 TXXTA0=1 (5)
其中,Y=[y1,y2,……,yn]为训练样本集合X=[x1,…,xn]经过投影矩阵A0降维后的样本点集合,且满足Y=A0 TX,A0为邻域保持嵌入模型所求的m×d的投影矩阵;wij为样本点xi与样本点xj对应邻接矩阵W的i行j列的权值;yj是样本点xi对应近邻点降维后的样本点;I为n×n的单位矩阵。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述步骤7进一步包括如下步骤:
步骤7-1:根据训练样本集中每个样本点的邻域图,在保持样本数据高维空间局部流形结构特征的基础上考虑到样本类别的先验信息,构建判别邻域嵌入模型的权值矩阵H;
步骤7-2:根据训练样本集X=[x1,…,xn]以及步骤7-1得到的权值矩阵H,构建判别邻域嵌入模型的目标函数;
步骤7-3、步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,构建基于类别信息的邻域保持嵌入模型的目标函数,从而构建基于类别信息的邻域保持嵌入模型。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述判别邻域嵌入模型的权值矩阵H通过下式所示的规则进行构建:
其中,hij为H的第i行第j列的值,其代表样本点xi与样本点xj的连接权值;xi(i=1,2,…,n)表示训练样本集X中第i个样本点;xj(j=1,2,……,n)表示训练样本集X中第j个样本点;ci(i=1,2…,n)表示样本类别集合为C=[c1,c2,……,cn]中第i个样本点的类别,ci∈{1,2,…,t};cj(j=1,2…,n)表示样本类别集合为C=[c1,c2,……,cn]中第j个样本点的类别,N(xi)为样本点xi的近邻点集合,N(xj)为样本点xj的近邻点集合。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述判别邻域嵌入模型的目标函数如下:
其中,A1为判别邻域嵌入模型所求的m×d的投影矩阵;hij为样本点xi与样本点xj对应权值矩阵H的i行j列的权值。
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述基于类别信息的邻域保持嵌入模型的目标函数,具体形式如下:
经过公式推导并引入拉格朗日函数,将上述最大化目标问题表示为以下求解形式:
XLXTa=λXMXTa (9)
其中,I为n×n单位矩阵;L=D-H;H为权值矩阵;D为对角矩阵,其元素M=(I-W)T(I-W);λ为拉格朗日乘子,d个特征向量a组成基于类别信息的邻域保持嵌入模型所求的m×d的投影矩阵A2
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述类内散度矩阵Sw和类间散度矩阵Sb分别如下:
Sb=(μ01)(μ01)T (12)
上式中,Σ0和Σ1为两类需要分类的故障样本点的协方差矩阵;X0、X1分别为两类需要分类的故障样本点集合;μ0和μ1为两类需要分类的故障样本点的平均值;
根据类内散度矩阵Sw和类间散度矩阵Sb构建如下线性判别分析模型的目标函数:
上式中,A3为线性判别分析模型所求的m×d的投影矩阵;
进一步地,根据所述的基于线性判别邻域保持嵌入的故障分类方法,所述线性判别邻域保持嵌入模型的投影矩阵A4的计算方法为:
首先确定所述性判别邻域保持嵌入模型的目标函数如下:
其中,A4为线性判别邻域保持嵌入模型的投影矩阵,wij是邻域保持嵌入模型的邻接矩阵W中的元素值,hij是权值矩阵H中的元素值,为值为1的平衡系数;
然后将式(14)的目标函数经过化简转化为如下矩阵形式:
最后通过式(15)求解出前d个最大的特征值(λ1≥λ2≥…≥λd)及其对应的d个特征向量(a1,a2,…,ad)组成线性判别邻域保持嵌入模型所求的m×d的投影矩阵A4
总体而言,通过本发明所构思的以上技术方案较现有技术具有以下有益效果:本发明提出了一种基于线性判别邻域保持嵌入的故障分类方法,将基于类别信息的邻域保持嵌入模型与线性判别分析模型结合,构建线性判别邻域保持嵌入模型。通过本发明构建模型中的基于类别信息的邻域保持嵌入思想充分考虑样本局部高维流形结构,同时利用样本类别的先验信息计算线性判别分析思想中的样本类内散度矩阵和类间散度矩阵,充分考虑采集样本点的全局信息,从样本全局和局部信息的两个角度出发对高维样本进行降维,从而得到更优质的降维效果,提高对故障分类的准确性。
附图说明
图1为田纳西-伊斯曼过程工艺流程图;
图2为本发明实施例基于线性判别邻域保持嵌入的故障分类方法的流程示意图;
图3为本发明实施例的邻域保持嵌入邻接矩阵构建示意图;
图4为本发明实施例的判别近邻嵌入权值矩阵构建示意图;
图5为本发明实施例TE过程第四、十四类故障对应的样本子集未进行降维处理的前两个观测变量的平面坐标分布示意图;
图6为本发明实施例通过邻域保持嵌入方法对TE过程第四、十四类故障对应的样本子集降维后的样本分类效果图;
图7为本发明实施例通过判别邻域嵌入方法对TE过程第四、十四类故障对应的样本子集降维后的样本分类效果图;
图8为本发明实施例通过基于类别的邻域保持嵌入方法对TE过程第四、十四类故障对应的样本子集降维后的样本分类效果图;
图9为本发明实施例通过本发明方法对TE过程第四、十四类故障对应的样本子集降维后的样本分类效果图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本实施方式中以田纳西-伊斯曼(Tennessee Eastman,TE)过程为例,对本发明提供的基于线性判别邻域保持嵌入的故障分类方法进行详细说明。图1是田纳西-伊斯曼(Tennessee Eastman,TE)过程工艺流程图,TE过程是一个非常复杂的化工领域的具有非线性化关系的生产过程。TE过程主要包含5种主要的操作单元,反应器(Reactor)、冷凝器(Condenser)、汽液分离器(Vap/liquid separator)、循环压缩机(Compressor)、汽提塔(Stripper)。化学反应的大致过程如下:参与反应的3种反应物首先放入反应器进行化学反应;反应过后进入冷凝器冷凝;冷凝过后将产物送进气液分离器进行气液分离,分离出的气体通过循环压缩机循环到反应器,分离出的液体进入汽提塔,通过向汽提塔加入反应物和少量惰性催化剂,得到混合液态产品,剩余反应物返回到最开始的反应器。
图2是本发明实施例基于线性判别邻域保持嵌入的故障分类方法的流程示意图,如图2所示,所述基于线性判别邻域保持嵌入的故障分类方法包括以下步骤:
步骤1:对选定的工业过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集对仿真过程获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
在本实施例中,对田纳西-伊斯曼过程实施21次不同的模拟仿真过程。每次设置不同的故障类型,一共设置了21种故障类型,即故障类别总数t=21,其中16种故障类型已知,5种故障类型未知。仿真过程产生21种故障的数据,形成TE故障数据集,每种故障的数据构成一个样本子集,并分别以d01.dat至d21.dat表示TE故障数据集中的21个样本子集。所述21种故障类型的具体信息如下:第一类故障至第七类故障是生产过程中过程变量的阶跃变化造成的故障;第八类故障至第十二类故障是生产过程中过程变量出现随机变化导致的故障;第十三类故障为反应过程中动力学相关变量出现缓慢漂移导致的故障;第十四类故障、第十五类故障和第二十一类故障是生产过程中的阀门控制失效导致的故障,如阀门粘滞;第十六类故障至第二十类故障为未知故障类型的故障。
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从选取出的两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集X=[x1,…,xn],其中n为样本点个数;xi(i=1,2,…,n)表示第i个样本点,且xi∈Rm,Rm表示m维空间,则训练样本集X为m×n的矩阵;与训练样本集X=[x1,…,xn]对应的样本类别集合为C=[c1,c2,……,cn],ci(i=1,2…,n)表示第i个样本点的故障类别,ci∈{1,2,…,t}。
本实施例中从TE故障数据集中选取d04.dat和d14.dat两个样本子集作为两类需要分类的故障样本点,也就是本实施例中样本的故障类别总数t=2。d04.dat和d14.dat每个样本集都包含480个样本,从每个样本集中选取前280个样本作为训练数据,后200个样本作为测试数据。从d04.dat和d14.dat两个样本集中选出的训练数据构成训练样本集X=[x1,…,xn],其中xi(i=1,2,…,n)表示第i个样本点,且xi∈Rm,Rm表示m维空间,m是降维前的样本点原始维数,即样本点xi(i=1,2,…,n)为m×1的列向量。在本实施例中训练样本集包含d04.dat和d14.dat两个样本子集中各自前280个样本,因此训练样本集中样本点个数n=560,数据集中的每个样本点都包含52个观测变量,样本点原始维数m=52,即样本点xi(i=1,2,…,n)为52×1的列向量,则X为52×560的矩阵。
由于本实施例中样本的故障类别总数t=2,因此本实施例的样本类别集合为C=[c1,c2,……,c560],ci(i=1,2…,560)表示第i个样本点的故障类别,ci∈{1,2}。
步骤3:初始化邻域保持嵌入算法相关参数,包括近邻点个数k、降维目标维数d;
在本实施例中,设置近邻点个数k=3、降维目标维数d=2。
步骤4:找出每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
计算训练样本集X=[x1,…,xn]中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
计算训练样本集X=[x1,…,xn]中每个样本点与其他所有样本点的欧氏距离,通过选取与每个样本点xi(i=1,2…,n)除自身外的k个欧式距离最小的点构成每个样本点的近邻点集合N(xi),连接样本点xi及其对应的k个近邻点,构造如图3所示的样本点xi的邻域图。在本实施例中k=3,找出与每个样本点欧式距离最近的3个样本点组成每个样本点的近邻点集合并构造每个样本点的邻域图。
步骤5:根据训练样本集中每个样本点的邻域图,对训练样本集X=[x1,…,xn]中每个样本点xi与其近邻点的连接赋予权值,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
邻域保持嵌入算法假设高维数据点与其最近邻的样本点位于同一种接近于线性的局部流形结构上,所以每个样本点xi都可以通过对应的k个近邻点线性表示。在本实施方式中,通过步骤4找出的每个样本点xi的近邻点集合N(xi),把样本点xi与其近邻点的连接赋予权值wij,其他无连接的非近邻点与样本点之间权值wij=0,同时样本点与样本点自身的权值wii=0。所有样本点均能够通过其近邻点的线性组合进行重构,通过使重构误差最小化,来计算邻接矩阵W:
邻接矩阵W满足如下要求:
对于非零的权值wij,通过式(2)所示的重构误差函数求得:
其中,训练样本集X=[x1,…,xn],其中xi(i=1,2,…,n)表示第i个样本点,xj(j=1,2,……,n)表示第j个样本点,邻接矩阵W为n×n的矩阵,W的第i行第j列的值wij代表着样本点xi与训练样本集所有样本点xj的连接权值;wij满足的约束条件。
本实施例的训练样本集中包含560个样本点,矩阵的每一行代表每一个样本点与训练样本集X=[x1,…,xn]所有样本点的权值关系,所以W为560×560的矩阵。
步骤6:根据训练样本集X=[x1,…,xn]以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,构建邻域保持嵌入模型的目标函数;
邻域保持嵌入算法假设降维后的样本点还保留着样本点在高维空间的近邻关系,通过降维后近邻点集合以及权值矩阵W线性重构出对应的降维后样本点集合Y=[y1,y2,……,yn],yi(i=1,2,……,n)代表第i个降维后的样本点,Y为训练样本集合X=[x1,…,xn]经过投影矩阵A0降维后的样本点集合,且满足Y=A0 TX,通过使重构误差函数最小化,构建邻域保持嵌入模型的目标函数,具体形式如下:
s.t.YTY=A0 TXXTA0=1 (5)
其中,A0为邻域保持嵌入模型所求的m×d的投影矩阵;wij为样本点xi与样本点xj对应邻接矩阵W的i行j列的权值;yj是样本点xi对应近邻点降维后的样本点;I为n×n的单位矩阵。
邻域保持嵌入算法(NPE)假设高维数据点与其最近邻的样本点位于同一种接近于线性的局部流形结构上,并通过将其近邻点赋予相应的权重来线性表示,通过寻找合适的投影矩阵A0将高维数据xi∈Rm映射到低维yi∈Rd,yi为降维后的样本点,d为投影矩阵降维后的维数,且d≤m。
步骤7:构建基于类别信息的邻域保持嵌入模型,方法为:根据训练样本集中每个样本点的近邻点集合以及训练样本集中每个样本点的类别信息构建判别邻域嵌入模型的权值矩阵,同时引入线性判别分析算法的思想,将步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,从而构建基于类别信息的邻域保持嵌入模型;
步骤7-1:根据训练样本集中每个样本点的邻域图,在保持样本数据高维空间局部流形结构特征的基础上考虑到样本类别的先验信息,根据式(6)所示的确定矩阵元素值的方法构建判别邻域嵌入模型的权值矩阵H,构建权值矩阵H的过程如图4所示。
其中,H为n×n的方阵;hij为H的第i行第j列的值,其代表样本点xi与样本点xj的连接权值;训练样本集X=[x1,…,xn],其中xi(i=1,2,…,n)表示第i个样本点,xj(j=1,2,……,n)表示第j个样本点,样本类别集合为C=[c1,c2,……,cn],ci(i=1,2…,n)表示第i个样本点的类别,ci∈{1,2},cj(j=1,2…,n)表示第j个样本点的类别,cj∈{1,2};xi和xj为同类点且同时满足xi为xj的近邻点或者xj为xi的近邻点时,hij赋值为-1;xi和xj为不同类点且同时满足xi为xj的近邻点或者xj为xi的近邻点时,hij赋值为+1;其他样本点之间的权重hij赋值为0,N(xi)为样本点xi的近邻点集合,N(xj)为样本点xj的近邻点集合。。
步骤7-2:根据训练样本集X=[x1,…,xn]以及步骤7-1得到的权值矩阵H,构建判别邻域嵌入模型的目标函数,具体形式如下:
其中,A1为判别邻域嵌入模型所求的m×d的投影矩阵;hij为样本点xi与样本点xj对应权值矩阵H的i行j列的权值。
步骤7-3、构建基于类别信息的邻域保持嵌入模型:结合邻域保持嵌入和判别近邻嵌入两种算法的优点,同时引入了线性判别分析算法的思想,将步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,构建基于类别信息的邻域保持嵌入模型的目标函数,具体形式如下:
经过公式推导并引入拉格朗日函数,上述最大化目标问题可以表示为以下求解形式:
XLXTa=λXMXTa (9)
其中,I为n×n单位矩阵,L=D-H,H为步骤7-1得到的权值矩阵,D为对角矩阵,M=(I-W)T(I-W),W为步骤5得到的n×n的邻接矩阵,λ为拉格朗日乘子,d个特征向量a组成基于类别信息的邻域保持嵌入模型所求的m×d的投影矩阵A2
步骤8:根据训练样本集中样本的类别信息,计算样本类内散度矩阵和类间散度矩阵,构建线性判别分析模型的目标函数,具体如下:
线性判别分析算法的思想是使同类样本点尽可能地聚合到一起,不同类的样本点尽可能地分开。如果使同类样本点尽可能地聚合到一起,可以通过把同类样本点的协方差最小化来达到这一效果,令Σ0和Σ1为本实施例中两类样本点的协方差矩阵,即最小化A3 TΣ0A3+A3 TΣ1A3;同时为了使不同类的样本点尽可能地分开,让不同类样本点各自的中心点距离越远越好,令μ0和μ1为两类样本点的平均值,即最大化同时考虑同类样本点的协方差最小化与不同类样本点中心距离最大化,线性判别分析算法的目标函数如下:
其中,A3为线性判别分析模型所求的m×d的投影矩阵;
把式(11)定义为类内散度矩阵Sw(within-class scatter matrix),把式(12)定义为类间散度矩阵Sb(between-class scatter matrix)。
上式中,X0、X1本实施例中两类样本点集合。
Sb=(μ01)(μ01)T (12)
线性判别分析算法的目标函数可以转化为如下迹的形式:
步骤9:将基于类别信息的邻域保持嵌入模型与线性判别分析模型结合,把基于类别信息的邻域保持嵌入模型目标函数的分子与线性判别分析模型目标函数的分子相加作为线性判别邻域保持嵌入模型目标函数的分子,将基于类别信息的邻域保持嵌入模型目标函数的分母与线性判别分析模型目标函数的分母相加作为线性判别邻域保持嵌入模型目标函数的分母,从而构建线性判别邻域保持嵌入模型的目标函数,并计算出线性判别邻域保持嵌入模型的投影矩阵A4
线性判别邻域保持嵌入目标函数如下:
其中,A4为线性判别邻域保持嵌入模型的投影矩阵,wij是步骤5中邻域保持嵌入模型的邻接矩阵W中的值,hij是步骤7中判别邻域嵌入模型的权值矩阵H中的值,为平衡两种方法的系数,本实施例中的值为1。
经过化简并把上式转化为矩阵形式,目标函数如下:
其中,上式中矩阵L、M由步骤7计算得出,类内散度矩阵Sw和类间散度矩阵Sb由步骤8计算得出。
通过式(15)求解出前d个最大的特征值(λ1≥λ2≥…≥λd),及其对应的d个特征向量(a1,a2,…,ad)组成线性判别邻域保持嵌入模型所求的m×d的投影矩阵A4
步骤10、使用步骤9得到的投影矩阵A4对测试样本集降维,通过支持向量机方法对测试样本集中的样本进行分类,具体如下:
步骤10-1、使用步骤9得到的投影矩阵A4对训练集高维数据样本点进行降维,得到降维后的样本点集合,将降维后的样本点集合使用支持向量机方法进行训练,得到支持向量机分类器;
步骤10-2、将测试样本集中的样本数据用投影矩阵A4降维,降维后的样本点集合以及样本点对应类别标签放入步骤10-1训练出的支持向量机分类器进行分类。
图5为本实施例TE过程中d04.dat和d14.dat这两个样本子集未进行降维处理的前两个观测变量的平面坐标分布示意图;图6、7、8分别为本发明实施例通过邻域保持嵌入方法、判别邻域嵌入方法、基于类别的邻域保持嵌入方法对TE过程中d04.dat和d14.dat这两个样本子集降维后的样本分类效果图;图9为通过本发明方法对TE过程中d04.dat和d14.dat这两个样本子集降维后的样本分类效果图。这五幅图中的记载的特征一和特征二分别是每个样本点都包含的52个观测变量中的两个变量。从这五幅图中可以看出,本发明方法相较于邻域保持嵌入方法、判别邻域嵌入方法、基于类别的邻域保持嵌入方法,可以更加有效地对TE过程中d04.dat和d14.dat这两个样本子集的故障样本点进行降维处理,同时能够更加清晰地对TE过程中d04.dat和d14.dat这两个样本子集的故障样本点进行区分。所以,本发明方法能够更好地对工业生产系统中具有数据量大、数据间相关性强、冗余度大、维数高特点的故障进行特征提取,从而提高对不同故障分类的准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于线性判别邻域保持嵌入的故障分类方法,其特征在于,该方法包括如下步骤:
步骤1:对某工业生产过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集仿真过程获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从选取出的两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集,训练样本集每个样本点的故障类别构成样本类别集合;
步骤3:初始化邻域保持嵌入算法相关参数,包括近邻点个数k、降维目标维数d;
步骤4:找出训练样本集中每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
步骤5:根据训练样本集中每个样本点的邻域图,对训练样本集中每个样本点xi与其近邻点的连接赋予权值,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
步骤6:根据训练样本集以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,通过使重构误差函数最小化,构建邻域保持嵌入模型的目标函数;
步骤7:根据训练样本集中每个样本点的近邻点集合以及训练样本集中每个样本点的类别信息构建判别邻域嵌入模型的权值矩阵,同时引入线性判别分析算法的思想,将步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,从而构建基于类别信息的邻域保持嵌入模型;
步骤8:根据训练样本集中样本的类别信息,计算样本类内散度矩阵Sw和类间散度矩阵Sb,构建线性判别分析模型的目标函数;
步骤9:将基于类别信息的邻域保持嵌入模型与线性判别分析模型结合,把基于类别信息的邻域保持嵌入模型目标函数的分子与线性判别分析模型目标函数的分子相加作为线性判别邻域保持嵌入模型目标函数的分子,将基于类别信息的邻域保持嵌入模型目标函数的分母与线性判别分析模型目标函数的分母相加作为线性判别邻域保持嵌入模型目标函数的分母,从而构建线性判别邻域保持嵌入模型的目标函数,并计算出线性判别邻域保持嵌入模型的投影矩阵A4
步骤10、使用步骤9得到的投影矩阵A4对测试样本集降维,通过支持向量机方法对测试样本集中的样本进行分类。
2.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述找出训练样本集中每个样本点除自身外的k个近邻点的方法为:计算训练样本集X=[x1,...,xn]中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点。
3.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述邻接矩阵W满足如下要求:
对于非零的权值wij,通过式(2)所示的重构误差函数求得:
其中,邻接矩阵W为n×n的矩阵,W的第i行第j列的值wij代表着样本点xi与训练样本集X中所有样本点xj的连接权值;N(xi)为训练样本集X中每个样本点xi的近邻点集合;xi(i=1,2,...,n)表示训练样本集X中的第i个样本点,xj(j=1,2,……,n)表示训练样本集X中的第j个样本点。
4.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述邻域保持嵌入模型的目标函数,具体形式如下:
s.t.YTY=A0 TXXTA0=1 (5)
其中,Y=[y1,y2,……,yn]为训练样本集合X=[x1,...,xn]经过投影矩阵A0降维后的样本点集合,且满足Y=A0 TX,A0为邻域保持嵌入模型所求的m×d的投影矩阵;wij为样本点xi与样本点xj对应邻接矩阵W的i行j列的权值;yj是样本点xi对应近邻点降维后的样本点;I为n×n的单位矩阵。
5.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述步骤7进一步包括如下步骤:
步骤7-1:根据训练样本集中每个样本点的邻域图,在保持样本数据高维空间局部流形结构特征的基础上考虑到样本类别的先验信息,构建判别邻域嵌入模型的权值矩阵H;
步骤7-2:根据训练样本集X=[x1,...,xn]以及步骤7-1得到的权值矩阵H,构建判别邻域嵌入模型的目标函数;
步骤7-3、步骤6中求解邻域保持嵌入模型投影矩阵的重构误差函数和求解判别邻域嵌入模型投影矩阵的目标函数分别作为基于类别信息的邻域保持嵌入模型的目标函数的分母与分子,构建基于类别信息的邻域保持嵌入模型的目标函数,从而构建基于类别信息的邻域保持嵌入模型。
6.根据权利要求5所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述判别邻域嵌入模型的权值矩阵H通过下式所示的规则进行构建:
其中,hij为H的第i行第j列的值,其代表样本点xi与样本点xj的连接权值;xi(i=1,2,...,n)表示训练样本集X中第i个样本点;xj(j=1,2,……,n)表示训练样本集X中第j个样本点;ci(i=1,2...,n)表示样本类别集合为C=[c1,c2,……,cn]中第i个样本点的类别,ci∈{1,2,...,t};cj(j=1,2...,n)表示样本类别集合为C=[c1,c2,……,cn]中第j个样本点的类别,N(xi)为样本点xi的近邻点集合,N(xj)为样本点xj的近邻点集合。
7.根据权利要求5所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述判别邻域嵌入模型的目标函数如下:
其中,A1为判别邻域嵌入模型所求的m×d的投影矩阵;hij为样本点xi与样本点xj对应权值矩阵H的i行j列的权值。
8.根据权利要求5所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述基于类别信息的邻域保持嵌入模型的目标函数,具体形式如下:
经过公式推导并引入拉格朗日函数,将上述最大化目标问题表示为以下求解形式:
XLXTa=λXMXTa (9)
其中,I为n×n单位矩阵;L=D-H;H为权值矩阵;D为对角矩阵,其元素M=(I-W)T(I-W);λ为拉格朗日乘子,d个特征向量a组成基于类别信息的邻域保持嵌入模型所求的m×d的投影矩阵A2
9.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述类内散度矩阵Sw和类间散度矩阵Sb分别如下:
Sb=(μ01)(μ01)T (12)
上式中,Σ0和Σ1为两类需要分类的故障样本点的协方差矩阵;X0、X1分别为两类需要分类的故障样本点集合;μ0和μ1为两类需要分类的故障样本点的平均值;
根据类内散度矩阵Sw和类间散度矩阵Sb构建如下线性判别分析模型的目标函数:
上式中,A3为线性判别分析模型所求的m×d的投影矩阵。
10.根据权利要求1所述的基于线性判别邻域保持嵌入的故障分类方法,其特征在于,所述线性判别邻域保持嵌入模型的投影矩阵A4的计算方法为:
首先确定所述性判别邻域保持嵌入模型的目标函数如下:
其中,A4为线性判别邻域保持嵌入模型的投影矩阵,wij是邻域保持嵌入模型的邻接矩阵W中的元素值,hij是权值矩阵H中的元素值,为值为1的平衡系数;
然后将式(14)的目标函数经过化简转化为如下矩阵形式:
最后通过式(15)求解出前d个最大的特征值(λ1≥λ2≥…≥λd)及其对应的d个特征向量(a1,a2,…,ad)组成线性判别邻域保持嵌入模型所求的m×d的投影矩阵A4
CN202111476386.XA 2021-12-06 2021-12-06 一种基于线性判别邻域保持嵌入的故障分类方法 Active CN114118292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111476386.XA CN114118292B (zh) 2021-12-06 2021-12-06 一种基于线性判别邻域保持嵌入的故障分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111476386.XA CN114118292B (zh) 2021-12-06 2021-12-06 一种基于线性判别邻域保持嵌入的故障分类方法

Publications (2)

Publication Number Publication Date
CN114118292A CN114118292A (zh) 2022-03-01
CN114118292B true CN114118292B (zh) 2024-04-16

Family

ID=80367113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111476386.XA Active CN114118292B (zh) 2021-12-06 2021-12-06 一种基于线性判别邻域保持嵌入的故障分类方法

Country Status (1)

Country Link
CN (1) CN114118292B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975588B (zh) * 2023-09-22 2023-12-19 太原理工大学 用于带式输送机的故障诊断方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133642A (zh) * 2017-04-25 2017-09-05 东北大学 一种基于田纳西伊斯曼过程的先验知识故障诊断方法
CN108038493A (zh) * 2017-11-24 2018-05-15 东北大学 基于回归智能判别嵌入的工业大数据过程故障监测方法
CN108122006A (zh) * 2017-12-20 2018-06-05 南通大学 基于不等权局部保持嵌入的故障诊断方法
CN110427019A (zh) * 2019-08-31 2019-11-08 仲恺农业工程学院 一种基于多变量判别分析的npda故障分类方法及控制装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894564B (zh) * 2017-11-09 2020-02-18 合肥工业大学 一种基于交叉小波特征的模拟电路故障诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133642A (zh) * 2017-04-25 2017-09-05 东北大学 一种基于田纳西伊斯曼过程的先验知识故障诊断方法
CN108038493A (zh) * 2017-11-24 2018-05-15 东北大学 基于回归智能判别嵌入的工业大数据过程故障监测方法
CN108122006A (zh) * 2017-12-20 2018-06-05 南通大学 基于不等权局部保持嵌入的故障诊断方法
CN110427019A (zh) * 2019-08-31 2019-11-08 仲恺农业工程学院 一种基于多变量判别分析的npda故障分类方法及控制装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于DKPLS的非线性过程故障检测;张颖伟;刘强;张杨;;华中科技大学学报(自然科学版);20090815(第S1期);全文 *

Also Published As

Publication number Publication date
CN114118292A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN103914064B (zh) 基于多分类器和d-s证据融合的工业过程故障诊断方法
CN106355030B (zh) 一种基于层次分析法和加权投票决策融合的故障检测方法
CN108776812A (zh) 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN107957946B (zh) 基于邻域嵌入保护算法支持向量机的软件缺陷预测方法
CN115240772B (zh) 一种基于图神经网络的解析单细胞通路活性的方法
CN112289391B (zh) 一种基于机器学习的阳极铝箔性能预测系统
CN112613536A (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN104809475A (zh) 基于增量线性判别分析的多类标场景分类方法
CN114139639B (zh) 一种基于自步邻域保持嵌入的故障分类方法
CN108830006B (zh) 基于线性评价因子的线性-非线性工业过程故障检测方法
CN106326915A (zh) 一种基于改进核Fisher的化工过程故障诊断方法
CN112904810A (zh) 基于有效特征选择的流程工业非线性过程监测方法
CN114118292B (zh) 一种基于线性判别邻域保持嵌入的故障分类方法
CN114372693A (zh) 一种基于云模型和改进ds证据理论的变压器故障诊断方法
CN104966075A (zh) 一种基于二维判别特征的人脸识别方法与系统
CN112434739A (zh) 一种基于多核学习的支持向量机的化工过程故障诊断方法
CN104143088B (zh) 一种基于图像检索和特征权重学习的人脸识别方法
CN110399814B (zh) 一种基于局部线性表示领域适应度量的人脸识别方法
CN113298184B (zh) 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
CN114492614A (zh) 一种基于集成学习的带钢热轧过程故障分类方法及装置
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN117274988A (zh) 基于Yolov5s的小麦条锈病菌孢子图像检测方法及系统
CN112287036A (zh) 一种基于谱聚类的离群点检测方法
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant