CN114139639A - 一种基于自步邻域保持嵌入的故障分类方法 - Google Patents

一种基于自步邻域保持嵌入的故障分类方法 Download PDF

Info

Publication number
CN114139639A
CN114139639A CN202111475272.3A CN202111475272A CN114139639A CN 114139639 A CN114139639 A CN 114139639A CN 202111475272 A CN202111475272 A CN 202111475272A CN 114139639 A CN114139639 A CN 114139639A
Authority
CN
China
Prior art keywords
sample
sample point
matrix
training
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111475272.3A
Other languages
English (en)
Other versions
CN114139639B (zh
Inventor
高鸿瑞
张颖伟
冯琳
马川
薛冯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202111475272.3A priority Critical patent/CN114139639B/zh
Publication of CN114139639A publication Critical patent/CN114139639A/zh
Application granted granted Critical
Publication of CN114139639B publication Critical patent/CN114139639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自步邻域保持嵌入的故障分类方法,属于故障监测与诊断技术领域。该方法主要解决数据的非线性和带标签样本过少的故障二分类的问题,该方法能够学习任意维的局部线性的低维流形结构,在降维过程中保持流形的局部线性结构不变,从而来提取数据中的有用信息,并且能够进行新样本的泛化。同时,该方法在邻域保持嵌入算法的基础上引入自步学习的思想,通过预设损失函数阈值对邻域保持嵌入算法降维后的样本点做进一步筛选,进一步保持降维后样本点的近邻关系,克服邻域保持嵌入算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响的缺点,从而得到更优质的降维效果,提高对故障分类的准确性。

Description

一种基于自步邻域保持嵌入的故障分类方法
技术领域
本发明属于故障监测与诊断技术领域,具体涉及一种基于自步邻域保持嵌入的故障分类方法。
背景技术
随着科学技术的不断发展和工业化水平的不断提高,工业生产逐渐向大规模、复杂化发展。一个工业系统中的各个组成部分之间的关联关系、耦合程度非常高。各个组成部分相互耦合,协同工作。一方面,这种生产方式工作效率得到了很大提高,产生了巨大的经济效益;然而另一方面,由于工业生产过程中各个组成部分关联性强,存在大量耦合,整个工业生产系统变得越来越复杂,对系统产生影响造成系统故障的因素也变得越来越多,系统发生故障的几率也随之增加,一旦发生较大的故障就可能导致停工停产,造成巨大的经济损失。国内国外都曾发生过因工业生产过程中机器故障导致的工业事故,造成了巨大的人员伤亡、经济损失和不良的社会影响。不同种类的故障会对系统造成不同的工业事故,如何进行故障检测、故障诊断,对不同种类故障进行有效分类对保障生产过程安全、工业系统运行稳定是十分必要和有意义的。
工业系统的故障数据中,含有丰富的信息,大量的故障信息为故障分类研究带来了新的机遇。但由于工业系统的故障有数据量大、数据间相关性强、冗余度大、维数高等特点,传统分类方法很容易导致“维数灾难”现象。因此,如何从高维数据中有效地提取出隐含特征,降低数据维数成为故障检测、故障诊断、故障分类方面研究的重点。故障分类首先需要对待测数据进行特征提取,实现维数约简,然后再对提取出来的特征进行分类。He等人提出了邻域保持嵌入(neighborhood preserving embedding,NPE)方法,邻域保持嵌入方法是一种比较流行的特征提取方法,该方法是一种非线性降维算法,在降维过程中保持流形的局部线性结构不变,可以学习任意维的局部线性的低维流形,能够使降维后的数据较好地保持原有流形结构,从而来提取数据中的有用信息,同时能够进行新样本的泛化。因此,邻域保持嵌入方法在人脸识别、生物医学等领域得到了成功的应用,而且近年来,NPE也被引入到故障检测领域。但该方法也存在对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响的缺点。
发明内容
针对现有技术存在的不足,本发明提出一种基于自步邻域保持嵌入的故障分类方法,在现有邻域保持嵌入模型的基础上引入自步学习进行优化。保留邻域保持嵌入模型能够保持样本高维局部流形结构的特点,同时通过自步学习由易到难逐步筛选出损失函数值较小的优质样本进行训练,经过多次迭代使邻域保持嵌入模型达到最优。从而得到比现有邻域保持嵌入算法更优质的降维效果。在某些故障的样本点比较分散且难以获取标签的情况下,达到对故障更好地分类效果。
一种基于自步邻域保持嵌入的故障分类方法,该方法包括如下步骤:
步骤1:对选定的工业生产过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集仿真过程获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从该两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集;
步骤3:初始化邻域保持嵌入算法相关参数和自步学习算法相关参数,所述邻域保持嵌入算法相关参数包括近邻点个数k、降维目标维数d;所述自步学习算法相关参数包括损失函数阈值λ、损失函数阈值更新系数u和训练终止样本个数countfinal;
步骤4:找出训练样本集中每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
步骤5:根据每个样本点的邻域图,对训练样本集中每个样本点与其近邻点的连接赋予权值,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
步骤6:随机初始化样本权重矩阵V,通过样本权重矩阵V赋予每个样本点不同的初始权重,从训练样本集中选择将参与计算投影矩阵A的样本集合;
步骤7:根据参与计算投影矩阵A的样本集合以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,通过使重构误差最小化,计算投影矩阵A;
步骤8:利用步骤7计算出的投影矩阵A对训练样本集中每个样本点降维,计算每个样本点的损失函数值li,并判断li≤λ是否成立,若是,则对训练样本集X中第i个样本点xi赋予的权重vi=1,若否,则令vi=0,获得新的样本权重矩阵V′;
步骤9:统计新的样本权重矩阵V′中元素为1的个数count-vnew,判断是否count-vnew≥countfinal,若是,则保存当前的投影矩阵A,执行步骤10;若否,利用步骤8得到的新的样本权重矩阵V′对训练样本集所有样本点赋予新的权值,重新选择参与计算投影矩阵A的样本集合,并令λ=λ*u,返回执行步骤7;
步骤10:使用保存的投影矩阵A对测试样本集降维,通过支持向量机方法对降维后的样本进行分类。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述工业生产过程为田纳西-伊斯曼过程。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述找出训练样本集中每个样本点除自身外的k个近邻点的方法为:计算训练样本集中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述邻接矩阵W如下:
Figure BDA0003393327790000031
Figure BDA0003393327790000032
其中,xj∈N(xi),N(xi)为训练样本集中每个样本点xi的近邻点集合;邻接矩阵W为n×k的矩阵,W的第i行第j列的值wij代表着样本点xi与其近邻点xj的连接权值;wij满足
Figure BDA0003393327790000033
约束条件。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述随机初始化样本权重矩阵V的方法为:样本权重矩阵V是含有n个元素的行向量,V中元素vi(i=1,2,……,n)全部都是布尔值,vi(i=1,2,……,n)表示对训练样本集X中第i个样本点xi赋予的权重,vi=1表示整个样本点参与构建邻域保持嵌入模型,即选中对应样本点xi进入构建邻域保持嵌入模型训练集,vi=0表示整个样本点没有参与构建邻域保持嵌入模型,即未选中对应样本点xi进入构建邻域保持嵌入模型训练集,这样通过对V中元素vi(i=1,2,……,n)随机赋予数值1或0实现对样本权重矩阵V的初始化。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述投影矩阵A为:
Figure BDA0003393327790000034
s.t. YTY=ATX1X1TAT=1 (4)
其中,A为m×k的矩阵;wrj为样本点xr与样本点xj对应邻接矩阵W的r行j列的权值;yj是样本点xr对应降维后的近邻点;I为n×n的单位矩阵;Y为参与计算投影矩阵A的样本集合X1=[x1,x2,……,xcount-v]经过投影矩阵降维后的样本点集合,样本点xr为样本集合X1的第r个样本;yr(r=1,2,……,count-v)代表第r个降维后的样本点,满足Y=ATX1。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述每个样本点xi(i=1,2...,n)的损失函数值li按下式计算:
Figure BDA0003393327790000041
其中,yi为降维后的样本点;yj为样本点xi的近邻点对应的降维后的样本点。
进一步地,根据所述的基于自步邻域保持嵌入的故障分类方法,所述步骤10包括如下步骤:
步骤10-1:使用保存的投影矩阵A对训练样本集中的高维数据样本点进行降维,得到降维后的样本点集合,将降维后的样本点集合使用支持向量机方法进行训练,得到支持向量机分类器;
步骤10-2:将测试样本集样本数据用保存的投影矩阵A降维,降维后的样本点集合以及样本点对应类别标签放入步支持向量机分类器进行分类。
总体而言,通过本发明所构思的以上技术方案较现有技术具有以下有益效果:本发明方法主要解决数据的非线性和带标签样本过少的故障二分类的问题,该方法能够学习任意维的局部线性的低维流形结构,在降维过程中保持流形的局部线性结构不变,从而来提取数据中的有用信息,并且能够进行新样本的泛化。同时,该方法在邻域保持嵌入算法的基础上引入自步学习的思想,通过预设损失函数阈值对邻域保持嵌入算法降维后的样本点做进一步筛选,进一步保持降维后样本点的近邻关系,克服邻域保持嵌入算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响的缺点,从而得到更优质的降维效果,提高对故障分类的准确性。
附图说明
图1为现有田纳西-伊斯曼过程工艺流程图;
图2为本发明实施例基于自步邻域保持嵌入的故障分类方法的流程示意图;
图3为本发明实施例邻域保持嵌入模型构建示意图;
图4为实施例通过邻域保持嵌入对TE过程第一、五类故障对应的样本子集降维后的样本分类效果图;
图5为实施例通过自步邻域保持嵌入对TE过程第一、五类故障对应的样本子集降维后的样本分类效果图;
图6为实施例通过邻域保持嵌入对TE过程第一、三类故障对应的样本子集降维后的样本分类效果图;
图7为实施例通过自步邻域保持嵌入对TE过程第一、三类故障对应的样本子集降维后的样本分类效果图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本实施方式中以田纳西-伊斯曼(Tennessee Eastman,TE)过程为例,利用本发明提供的基于自步邻域保持嵌入的故障分类方法对该过程进行详细说明。图1是田纳西-伊斯曼(Tennessee Eastman,TE)过程工艺流程图,TE过程是一个非常复杂的化工领域的具有非线性化关系的生产过程。TE过程主要包含5种主要的操作单元,反应器(Reactor)、冷凝器(Condenser)、汽液分离器(Vap/liquid separator)、循环压缩机(Compressor)、汽提塔(Stripper)。化学反应的大致过程如下:参与反应的3种反应物首先放入反应器进行化学反应;反应过后进入冷凝器冷凝;冷凝过后将产物送进气液分离器进行气液分离,分离出的气体通过循环压缩机循环到反应器,分离出的液体进入汽提塔,通过向汽提塔加入反应物和少量惰性催化剂,得到混合液态产品,剩余反应物返回到最开始的反应器。
图2是本发明实施例基于自步邻域保持嵌入的故障分类方法的流程示意图,如图2所示,所述基于自步邻域保持嵌入的故障分类方法包括以下步骤:
步骤1:对某个工业生产过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集仿真过程获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
在本实施例中,对田纳西-伊斯曼过程实施21次不同的模拟仿真过程。每次设置不同的故障类型,一共设置了21种故障类型,其中16种故障类型已知,5种故障类型未知。仿真过程产生21种故障的数据,形成TE故障数据集,每种故障的数据构成一个样本子集,并分别以d01.dat至d21.dat表示TE故障数据集中的21个样本子集。所述21种故障类型的具体信息如下:第一类故障至第七类故障是生产过程中过程变量的阶跃变化造成的故障;第八类故障至第十二类故障是生产过程中过程变量出现随机变化导致的故障;第十三类故障为反应过程中动力学相关变量出现缓慢漂移导致的故障;第十四类故障、第十五类故障和第二十一类故障是生产过程中的阀门控制失效导致的故障,如阀门粘滞;第十六类故障至第二十类故障为未知故障类型的故障。
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从该两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集X=[x1,...,xn],其中n为样本点个数;xi(i=1,2,...,n)表示第i个样本点,且xi∈Rm,Rm表示m维空间,则训练样本集X为m×n的矩阵;
本实施例中从TE故障数据集中选取d01.dat和d03.dat两个样本子集作为两类需要分类的故障样本点。d01.dat和d03.dat每个样本集都包含480个样本,从每个样本集中选取前380个样本作为训练数据,后100个样本作为测试数据。从d01.dat和d03.dat两个样本集中选出的训练数据构成训练样本集X=[x1,...,xn],其中xi(i=1,2,...,n)表示第i个样本点,且xi∈Rm,Rm表示m维空间,m是降维前的样本点原始维数,即样本点xi(i=1,2,...,n)为m×1的列向量。在本实施例中训练样本集样本点个数n=760,数据集中的每个样本点都包含52个观测变量,样本点原始维数m=52,即样本点xi(i=1,2,...,n)为52×1的列向量,则X为52×760的矩阵。
步骤3:初始化邻域保持嵌入算法相关参数和自步学习算法相关参数,所述邻域保持嵌入算法相关参数包括近邻点个数k、降维目标维数d;所述自步学习算法相关参数包括损失函数阈值λ、损失函数阈值更新系数u和训练终止样本个数countfinal;
在本实施例中,设置近邻点个数k=3、降维目标维数d=2、损失函数阈值λ=0.924472441847807e-06、损失函数阈值更新系数u=1.005,训练终止样本个数countfinal=470;
步骤4:计算训练样本集X=[x1,...,xn]中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
计算训练样本集X=[x1,...,xn]中每个样本点与其他所有样本点的欧氏距离,通过选取与每个样本点xi(i=1,2...,n)除自身外的k个欧式距离最小的点构成每个样本点的近邻点集合N(xi),连接样本点xi及其对应的k个近邻点xj(j=1,2...,k),构造如图3所示的样本点xi的邻域图。在本实施例中k=3,找出与每个样本点欧式距离最近的3个样本点组成每个样本点的近邻点集合并构造每个样本点的邻域图。
步骤5:根据每个样本点的邻域图,对训练样本集X=[x1,...,xn]中每个样本点xi与其近邻点xj的连接赋予权值wij,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
邻域保持嵌入算法假设高维数据点与其最近邻的样本点位于同一种接近于线性的局部流形结构上,所以每个样本点xi都可以通过与其对应的k个近邻点线性表示。
在本实施方式中,通过步骤4找出的每个样本点xi的近邻点集合N(xi),把样本点xi与其近邻点的连接赋予权值wij,其他无连接的非近邻点与样本点之间权值为0,同时样本点与样本点自身的权值也设为0。所有样本点均能够通过其近邻点的线性组合进行重构,通过使重构误差最小化,来计算邻接矩阵W:
Figure BDA0003393327790000071
Figure BDA0003393327790000072
其中,xj∈N(xi);邻接矩阵W为n×k的矩阵,W的第i行第j列的值wij代表着样本点xi与其近邻点xj的连接权值;wij满足
Figure BDA0003393327790000073
约束条件。
本实施例的训练样本集中包含760个样本点,近邻点个数为3,矩阵的每一行代表每一个样本点与其近邻点的权值关系,所以W为760×3的矩阵。
步骤6:随机初始化样本权重矩阵V,V是含有n个元素的行向量,根据初始化的样本权重矩阵V在训练样本集X=[x1,...,xn]中选择将参与计算投影矩阵A的样本集合X1=[x1,x2,……,xcount-v];所述V中元素vi(i=1,2,……,n)全部都是布尔值;
通过样本权重矩阵V赋予每个样本不同的初始权重,不同的初始权重代表着样本在构建邻域保持嵌入模型过程中发挥不同的作用;本实施例中样本权重V选用二值化策略,即V中元素vi(i=1,2,……,n)全部都是布尔值,vi(i=1,2,……,n)表示对训练样本集X中第i个样本点xi赋予的权重,vi=1表示整个样本点参与构建邻域保持嵌入模型,即选中对应样本点xi进入构建邻域保持嵌入模型训练集,vi=0表示整个样本点没有参与构建邻域保持嵌入模型,即未选中对应样本点xi进入构建邻域保持嵌入模型训练集,这样通过对V中元素vi(i=1,2,……,n)随机赋予数值1或0实现对样本权重矩阵V的初始化,来表示对训练样本集X中对应样本点随机赋予1或0的权重,训练样本集X共有n个样本点,所以V为包含n个布尔值的行向量;
其中,X1为m×count-v的矩阵,count-v为样本权重矩阵V中元素为1的个数,即被选中参与计算投影矩阵A的样本个数,用xr(r=1,2,……,count-v)表示参与计算投影矩阵A的第r个样本;
步骤7:根据参与计算投影矩阵A的样本集合X1=[x1,x2,……,xcount-v]以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,通过使重构误差最小化,计算投影矩阵A;
邻域保持嵌入算法假设高维数据点与其最近邻的样本点位于同一种接近于线性的局部流形结构上,每个样本点xi都可以通过对应的k个近邻点线性表示,具体是通过对其近邻点赋予相应的权重来线性表示每个样本点xi,然后再通过寻找合适的投影矩阵A将高维数据xi∈Rm映射到低维yi∈Rd,yi为降维后的样本点,d为降维后的维数,其中d≤m,图3为邻域保持嵌入模型构建示意图。
Figure BDA0003393327790000081
s.t. YTY=ATX1X1TAT=1 (4)
其中,邻域保持嵌入算法假设降维后的样本点还保留着样本点在高维空间的近邻关系,因此A为m×k的矩阵;wrj为样本点xr与样本点xj对应邻接矩阵W的r行j列的权值;yj是样本点xr对应降维后的近邻点;I为n×n的单位矩阵;Y为步骤6选择的参与模型训练的样本集合X1=[x1,x2,……,xcount-v]经过投影矩阵降维后的样本点集合,yr(r=1,2,……,count-v)代表第r个降维后的样本点,满足Y=ATX1;
步骤8:利用步骤7计算出的投影矩阵A对训练样本集X=[x1,...,xn]中每个样本点降维,计算每个样本点xi(i=1,2...,n)的损失函数值li;判断li≤λ是否成立,若是,则令vi=1,若否,则令vi=0,获得新的样本权重矩阵V′;
通过投影矩阵A对训练样本集样本降维,即Y=ATX,对降维后的训练样本集样本点计算损失函数值
Figure BDA0003393327790000091
即降维后样本点减去其降维后近邻点与近邻点对应邻接矩阵各自权值乘积获得的差值,若li≤λ,则令vi=1,若li>λ,则令vi=0;对具有较小损失函数值的样本赋予较大权重,对具有较大损失函数值的样本赋予较小权重,从而达到选择简单样本即损失函数值小的样本参与构建邻域保持嵌入模型的目的。
步骤9:统计新的样本权重矩阵V′中元素为1的个数count-vnew,判断是否count-vnew≥countfinal,即判断被选中参与模型训练的样本个数是否达到终止条件,如果是,保存当前得到的投影矩阵A,执行步骤10;如果否,通过步骤8得到的新的样本权重矩阵V′对训练样本集所有样本点赋予新的权值,重新选择参与计算投影矩阵A的样本集合X1=[x1,x2,……,xcount-v],并令λ=λ*u,返回执行步骤7;
通过更新过后的样本权重矩阵V′,选择下一轮参与计算投影矩阵A的样本点,如果参与计算投影矩阵A的样本点的个数大于或等于预设值,即count-vnew≥countfinal则保存最后一轮模型训练得到的投影矩阵A,并执行步骤10;如果样本点个数没有达到终止要求,则根据新的样本权值矩阵更新进入下一轮模型训练的样本点,返回步骤7继续训练计算新的投影矩阵,并根据损失函数阈值更新系数逐步增大损失函数阈值,即λ=λ*u,从而在下一轮构建邻域保持嵌入模型过程中筛选出更多损失函数值较小的样本,直到筛选出的样本数达到参与构建邻域保持嵌入模型的样本点的个数大于或等于预设值的终止条件;
步骤10:使用保存的投影矩阵A对测试样本集降维,通过支持向量机方法对降维后的样本进行分类,具体如下:
步骤10-1:使用保存的投影矩阵A对训练样本集中的高维数据样本点进行降维,得到降维后的样本点集合,将降维后的样本点集合使用支持向量机方法进行训练,得到支持向量机分类器;
步骤10-2:将测试样本集样本数据用保存的投影矩阵A降维,降维后的样本点集合以及样本点对应类别标签放入步支持向量机分类器进行分类。
图4、图5分别是利用现有邻域保持嵌入与本发明提供的自步邻域保持嵌入对TE过程的第一类故障和第五类故障两类故障对应的样本子集d01.dat和d05.dat降维后的样本分类效果图;图6、图7分别是利用现有邻域保持嵌入算法与本发明方法对TE过程的第一类故障和第三类故障两类故障对应的样本子集d01.dat和d03.dat降维后的样本分类效果图。这四幅图中的记载的特征一和特征二分别是每个样本点都包含的52个观测变量中的两个变量;这四幅图中记载的training、classified、Support Vectors分别代表训练样本集中的样本点、测试样本集中的样本点和支持向量机方法中的支持向量,这四幅图中记载的1和2分别代表两类故障。从这四幅图中可以清晰地看出,本发明方法能够更好地对工业系统中具有数据量大、数据间相关性强、冗余度大、维数高特点的故障进行特征提取,从而提高故障分类的准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于自步邻域保持嵌入的故障分类方法,其特征在于,该方法包括如下步骤:
步骤1:对选定的工业生产过程实施若干次的模拟仿真,每次仿真过程设置不同的故障类型,采集仿真过程获得的不同种类故障的数据,每种故障的数据构成一个样本子集,所有样本子集构成TE故障数据集;
步骤2:从TE故障数据集中随机选取两个样本子集,获取两类需要分类的故障样本点,并分别从该两个样本子集中划分出测试数据和训练数据,其中所述测试数据构成测试样本集,所述训练数据构成训练样本集;
步骤3:初始化邻域保持嵌入算法相关参数和自步学习算法相关参数,所述邻域保持嵌入算法相关参数包括近邻点个数k、降维目标维数d;所述自步学习算法相关参数包括损失函数阈值λ、损失函数阈值更新系数u和训练终止样本个数countfinal;
步骤4:找出训练样本集中每个样本点除自身外的k个近邻点,并根据该k个近邻点构造每个样本点的邻域图;
步骤5:根据每个样本点的邻域图,对训练样本集中每个样本点与其近邻点的连接赋予权值,通过其近邻点的线性组合对每个样本点进行重构,并通过使重构误差最小化计算邻接矩阵W;
步骤6:随机初始化样本权重矩阵V,通过样本权重矩阵V赋予每个样本点不同的初始权重,从训练样本集中选择将参与计算投影矩阵A的样本集合;
步骤7:根据参与计算投影矩阵A的样本集合以及步骤5得到的邻接矩阵W,对待求解的降维后的样本点通过其降维后近邻点的线性组合进行重构,通过使重构误差最小化,计算投影矩阵A;
步骤8:利用步骤7计算出的投影矩阵A对训练样本集中每个样本点降维,计算每个样本点的损失函数值li,并判断li≤λ是否成立,若是,则对训练样本集X中第i个样本点xi赋予的权重vi=1,若否,则令vi=0,获得新的样本权重矩阵V′;
步骤9:统计新的样本权重矩阵V′中元素为1的个数count-vnew,判断是否count-vnew≥countfinal,若是,则保存当前的投影矩阵A,执行步骤10;若否,利用步骤8得到的新的样本权重矩阵V′对训练样本集所有样本点赋予新的权值,重新选择参与计算投影矩阵A的样本集合,并令λ=λ*u,返回执行步骤7;
步骤10:使用保存的投影矩阵A对测试样本集降维,通过支持向量机方法对降维后的样本进行分类。
2.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述工业生产过程为田纳西-伊斯曼过程。
3.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述找出训练样本集中每个样本点除自身外的k个近邻点的方法为:计算训练样本集中每个样本点与其他所有样本点的欧氏距离,依据欧式距离找出每个样本点除自身外的k个近邻点。
4.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述邻接矩阵W如下:
Figure FDA0003393327780000021
Figure FDA0003393327780000022
其中,xj∈N(xi),N(xi)为训练样本集中每个样本点xi的近邻点集合;邻接矩阵W为n×k的矩阵,W的第i行第j列的值wij代表着样本点xi与其近邻点xj的连接权值;wij满足
Figure FDA0003393327780000023
约束条件。
5.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述随机初始化样本权重矩阵V的方法为:样本权重矩阵V是含有n个元素的行向量,V中元素vi(i=1,2,……,n)全部都是布尔值,vi(i=1,2,……,n)表示对训练样本集X中第i个样本点xi赋予的权重,vi=1表示整个样本点参与构建邻域保持嵌入模型,即选中对应样本点xi进入构建邻域保持嵌入模型训练集,vi=0表示整个样本点没有参与构建邻域保持嵌入模型,即未选中对应样本点xi进入构建邻域保持嵌入模型训练集,这样通过对V中元素vi(i=1,2,……,n)随机赋予数值1或0实现对样本权重矩阵V的初始化。
6.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述投影矩阵A为:
Figure FDA0003393327780000024
s.t. YTY=ATX1X1TAT=1 (4)
其中,A为m×k的矩阵;wrj为样本点xr与样本点xj对应邻接矩阵W的r行j列的权值;yj是样本点xr对应降维后的近邻点;I为n×n的单位矩阵;Y为参与计算投影矩阵A的样本集合X1=[x1,x2,……,xcount-v]经过投影矩阵降维后的样本点集合,样本点xr为样本集合X1的第r个样本;yr(r=1,2,……,count-v)代表第r个降维后的样本点,满足Y=ATX1。
7.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述每个样本点xi(i=1,2...,n)的损失函数值li按下式计算:
Figure FDA0003393327780000031
其中,yi为降维后的样本点;yj为样本点xi的近邻点对应的降维后的样本点。
8.根据权利要求1所述的基于自步邻域保持嵌入的故障分类方法,其特征在于,所述步骤10包括如下步骤:
步骤10-1:使用保存的投影矩阵A对训练样本集中的高维数据样本点进行降维,得到降维后的样本点集合,将降维后的样本点集合使用支持向量机方法进行训练,得到支持向量机分类器;
步骤10-2:将测试样本集样本数据用保存的投影矩阵A降维,降维后的样本点集合以及样本点对应类别标签放入步支持向量机分类器进行分类。
CN202111475272.3A 2021-12-06 2021-12-06 一种基于自步邻域保持嵌入的故障分类方法 Active CN114139639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111475272.3A CN114139639B (zh) 2021-12-06 2021-12-06 一种基于自步邻域保持嵌入的故障分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111475272.3A CN114139639B (zh) 2021-12-06 2021-12-06 一种基于自步邻域保持嵌入的故障分类方法

Publications (2)

Publication Number Publication Date
CN114139639A true CN114139639A (zh) 2022-03-04
CN114139639B CN114139639B (zh) 2024-05-14

Family

ID=80383918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111475272.3A Active CN114139639B (zh) 2021-12-06 2021-12-06 一种基于自步邻域保持嵌入的故障分类方法

Country Status (1)

Country Link
CN (1) CN114139639B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610927A (zh) * 2023-07-21 2023-08-18 傲拓科技股份有限公司 基于fpga的风机齿轮箱轴承故障诊断方法及诊断模块
CN116975588A (zh) * 2023-09-22 2023-10-31 太原理工大学 用于带式输送机的故障诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170146433A1 (en) * 2015-11-19 2017-05-25 Northeastern University Fault isolation method of industrial process based on regularization framework
CN107316057A (zh) * 2017-06-07 2017-11-03 哈尔滨工程大学 基于局部线性嵌入与k‑最近邻分类器的核动力装置故障诊断方法
CN108122006A (zh) * 2017-12-20 2018-06-05 南通大学 基于不等权局部保持嵌入的故障诊断方法
CN110427019A (zh) * 2019-08-31 2019-11-08 仲恺农业工程学院 一种基于多变量判别分析的npda故障分类方法及控制装置
CN112580693A (zh) * 2020-11-27 2021-03-30 北京化工大学 基于自助法重采样邻域保持嵌入的石化过程故障诊断方法
WO2021135630A1 (zh) * 2019-12-31 2021-07-08 福州大学 基于grcmse与流形学习的滚动轴承故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170146433A1 (en) * 2015-11-19 2017-05-25 Northeastern University Fault isolation method of industrial process based on regularization framework
CN107316057A (zh) * 2017-06-07 2017-11-03 哈尔滨工程大学 基于局部线性嵌入与k‑最近邻分类器的核动力装置故障诊断方法
CN108122006A (zh) * 2017-12-20 2018-06-05 南通大学 基于不等权局部保持嵌入的故障诊断方法
CN110427019A (zh) * 2019-08-31 2019-11-08 仲恺农业工程学院 一种基于多变量判别分析的npda故障分类方法及控制装置
WO2021135630A1 (zh) * 2019-12-31 2021-07-08 福州大学 基于grcmse与流形学习的滚动轴承故障诊断方法
CN112580693A (zh) * 2020-11-27 2021-03-30 北京化工大学 基于自助法重采样邻域保持嵌入的石化过程故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马川;李宏坤;赵利华;郭正刚;: "运用小波包峭度包络的滚动轴承故障诊断", 振动.测试与诊断, no. 06, 15 December 2011 (2011-12-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610927A (zh) * 2023-07-21 2023-08-18 傲拓科技股份有限公司 基于fpga的风机齿轮箱轴承故障诊断方法及诊断模块
CN116610927B (zh) * 2023-07-21 2023-10-13 傲拓科技股份有限公司 基于fpga的风机齿轮箱轴承故障诊断方法及诊断模块
CN116975588A (zh) * 2023-09-22 2023-10-31 太原理工大学 用于带式输送机的故障诊断方法
CN116975588B (zh) * 2023-09-22 2023-12-19 太原理工大学 用于带式输送机的故障诊断方法

Also Published As

Publication number Publication date
CN114139639B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN110609524B (zh) 一种工业设备剩余寿命预测模型及其构建方法和应用
CN112580263B (zh) 基于时空特征融合的涡扇发动机剩余使用寿命预测方法
CN103914064B (zh) 基于多分类器和d-s证据融合的工业过程故障诊断方法
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN110033021A (zh) 一种基于一维多路卷积神经网络的故障分类方法
CN114139639A (zh) 一种基于自步邻域保持嵌入的故障分类方法
Wang et al. Fault recognition using an ensemble classifier based on Dempster–Shafer Theory
CN110297480B (zh) 基于参数优化的深度信念网络模型的te过程故障诊断方法
CN115270956A (zh) 基于持续学习的跨设备增量轴承故障诊断方法
CN113052218A (zh) 工业过程的多尺度残差卷积与lstm融合性能评估方法
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN110634198B (zh) 一种基于正多胞体滤波的工业系统分层故障诊断方法
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
CN114706780A (zh) 一种基于Stacking集成学习的软件缺陷预测方法
CN112967755B (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN111382792B (zh) 一种基于双稀疏字典稀疏表示的滚动轴承故障诊断方法
CN114118292B (zh) 一种基于线性判别邻域保持嵌入的故障分类方法
CN117034139A (zh) 一种基于模型融合的化工过程故障诊断方法
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
CN114386311A (zh) 基于关键性能指标的运维异常数据增强的方法和设备
CN114528906A (zh) 一种旋转机械的故障诊断方法、装置、设备和介质
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN112906751A (zh) 一种非监督学习识别异常值的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant