CN107704863B - Pca主元重排的故障特征表示方法 - Google Patents

Pca主元重排的故障特征表示方法 Download PDF

Info

Publication number
CN107704863B
CN107704863B CN201710364786.9A CN201710364786A CN107704863B CN 107704863 B CN107704863 B CN 107704863B CN 201710364786 A CN201710364786 A CN 201710364786A CN 107704863 B CN107704863 B CN 107704863B
Authority
CN
China
Prior art keywords
rearrangement
pca
fault
principal component
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710364786.9A
Other languages
English (en)
Other versions
CN107704863A (zh
Inventor
刘卓
王天真
汤天浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN201710364786.9A priority Critical patent/CN107704863B/zh
Publication of CN107704863A publication Critical patent/CN107704863A/zh
Application granted granted Critical
Publication of CN107704863B publication Critical patent/CN107704863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明适用于模式识别中故障诊断的特征提取后的特征表示领域,公开并提供了PCA主元重排的故障特征表示方法。该主元重排(Principal Components Rearrangement,PCR)方法针对原始故障样本之间出现“重叠”现象,所述方法包括:基于PCA(Principal Components Analysis,PCA)方法的特征提取;主元的离线重排;反向重构投影矩阵。本发明是在传统PCA故障特征提取之后,进一步根据一种主元重排方法进行特征表示,该方法在合适的主元样本的置信区间内,能将互相重叠的故障进行分离,大大提高了传统PCA故障特征提取的效率,为后续故障诊断及容错控制等环节的成功提供了前提保障。

Description

PCA主元重排的故障特征表示方法
技术领域
本发明属于模式识别中故障诊断的特征提取后的特征表示领域,尤其涉 及PCA主元重排的故障特征表示方法。
背景技术
在故障特征提取之后,如何对所提取的故障特征数据进行明显的表示, 使故障特征有分类的代表性,是故障诊断性能是否优良的关键性问题,对于快速 分类诊断、提高分类准确率具有关键性意义。其中对于高维数据特征提取的传统 PCA而言,主元提取之后的特征表示是PCA提取的关键步骤,选择合适的重排 间隔重构有效的投影矩阵是主要思路,以这样的思路可以改进传统PCA方法, 使其故障特征之后的特征更具有分类的代表性。
对于PCA特征提取之后的特征表示,由于常见的做法是在一层或几层特 征提取后,使用其他特征提取方法进一步加强特征提取效果,或者为了提高故障 诊断性能,在特征提取方法不变的情况下,优化诊断分类器、选用高精度的分类 算法。
“一层或几层特征提取后,使用其他特征提取方法进一步加强特征提取 效果”做法类似于算法的组合或融合,但是往往算法的复杂度较高,在组合时也 欠缺一定的理论说明;“在特征提取方法不变的情况下,优化诊断分类器、选用 高精度的分类算法”做法虽然在分类器性能增加的情况下,能够实现高性能的故 障诊断,但容易受所提取的特征的影响,比如“维数灾难”,此外,这种做法对于 分类器的参数调整要求较高,不利于快速故障诊断,另外如果样本数量较多时, 受噪声(主要是高斯噪声)的影响,不同故障特征互相重叠,则故障分类性能会 急剧下降。
发明内容
针对以上问题,本发明的主要目的在于公开并提供了PCA主元重排的故 障特征表示方法,旨在解决样本数量较多时,受噪声(主要是高斯噪声)的影响, 不同故障特征互相重叠,而造成现有故障特征提取方法性能不佳影响到故障诊断 性能的问题。
所述的PCA主元重排的故障特征表示方法包含以下三个步骤:
步骤一:基于PCA方法的特征提取
PCA方法由于其运算过程存在主要特征的选取过程,因此经常被用于高维 数据的降维以及特征提取,传统的PCA方法步骤如下:
定义PCA特征提取输入数据为
Figure BDA0001301300770000021
其中M、N分别代表样本的总 数量以及每个样本中的变量数,满足M=I×J,其中I、J分别代表故障种类数 (含正常)以及每类样本的数量,因此矩阵X可以被分解为如公式(1)相等数 量的I块:
Figure BDA0001301300770000022
对于常见的工业采样过程,高斯噪声几乎占了大多数,假定这里每类数据样 本除了真值成分外,均含有高斯噪声,其中的第i类样本xi近似高斯分布,求其 高斯分布的均值和标准差分别为μi和σi。其中第i类样本xi可表示为公式(2):
Figure BDA0001301300770000023
其中i=1,2,…I。则
Figure BDA0001301300770000024
的标准化矩阵为
Figure BDA0001301300770000025
为了便于表达,这里引入维数为J×1的单位向量1J×1,因此
Figure BDA0001301300770000026
的表达式如公式(3)所示:
Figure BDA0001301300770000027
其中μi_cc是xi按照其列序号顺序所求的平均值向量,维数为1×N,
Figure BDA0001301300770000028
则X的标准化矩阵
Figure BDA0001301300770000029
X*的协方差矩阵
Figure BDA00013013007700000210
见公式(4):
Figure BDA00013013007700000211
其中标记“()H”表示共轭转置运算。如果λii和vii(ii=1,2,…,N)分别是
Figure BDA00013013007700000212
所对应 的特征值和特征向量。
累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公式(5):
Figure BDA0001301300770000031
根据公式(5),主元数目k可以由公式(6)计算得到。
Figure BDA0001301300770000032
如果定义由特征值CPV所选取的特征向量构建的投影矩阵
Figure BDA0001301300770000033
为 PT=(PT1,PT1,…,PTk),则PCA特征提取后的结果数据可由公式(7)所示。
Y=XPT (7)
Y详细的表达见公式(8):
Figure BDA0001301300770000034
其中
Figure BDA0001301300770000035
的一列代表一个主元,主元每个列向量都分别被用作重排算法的输入数据。
为了便于表示,也将矩阵Y如公式(1)行分块为
Figure BDA0001301300770000036
由 于PCA是一个按方差最大方向的正交旋转,等同于一个线性坐标变换,而一个 符合高斯分布的样本,经过线性变换,其结果也是符合高斯分布的,因为PCA 的输入数据矩阵X按照I的数量进行行分块,每一块数据矩阵均符合高斯分布, 因此
Figure BDA0001301300770000037
中对应的每一块数据矩阵也是符合高斯分布的,比如第 i个类别序号对应的数据矩阵xi符合高斯分布,则对应的Yi也是高斯分布的。将 传统PCA提取得到的特征进一步的表示,使其更明显,如下文。
步骤二:主元的离线重排
这一部分,主要是运用一种基于特征的概率分布情况的重排方法,将Y中每 一个主元分别进行重排,这样主要是为了使得每个主元中的特征之间更有代表性 和明显性,便于后续的分类诊断。这部分主要有两个步骤:
(1)分别选择Y的列向量(主元)
比如选择Y中的第c列yc,其表达式为
yc=(y1c,y1c,…yMc)T (9)
其中c=1,2,…,k,如果按照类别划分,此处为I类,则yc也可以写为(10)式:
Figure RE-GDA0001373052550000041
对于每个类别序号所对应的数据,均含有J个样本。因此对于yc中的标记第 i类的向量yc_i=(y[(i-1)J+1]c,y[(i-1)J+2]c,…,y(i×J)c),其中i=1,2,…,I,因为yc_i属于Yi第c列,对于每个主元来说,其中标记第i类的特征yc_i也是属于高斯分布的,因 此可以求出yc_i对应的期望μc_i和标准差σc_i
(2)对所选主元向量重排
求出(10)每个类别序号对应的数据均值为
Figure RE-GDA0001373052550000042
其中μc_1c_2,…μc_I分别是yc_1,yc_2,…yc_I所对应的算术平均值,也是其特征数据分布对应的期望,其中第i个期望
Figure RE-GDA0001373052550000043
其中i=1,2,…,I, j=1,2,…,J。因为yc_i也是符合高斯分布的,因此可以列写出其累积分布函数 F(z,μc_ic_i),可见公式(12):
Figure RE-GDA0001373052550000044
定义yc_i分布的置信区间为CIc_i,为了使得特征的样本点数尽可能分布于所 在置信区间中,根据高斯分布的“3σ”原则,可以取 CIc_i=[μc_i-3σc_ic_i+3σc_i],因此Pr(z∈CIc_i)≈99.7%,其中i=1,2,…,I。
则第i类特征数据在CIc_i=[μc_i-3σc_ic_i+3σc_i]中概率分布的横坐标区 间长度可由公式(13)求出:
Δzc_i=2×|F-1(z<(uc_i+3σc_i),μc_ic_i)-uc_i| (13)
其中F-1是求(12)概率分布函数的反函数,一般查表能够得到,如果采用 MATLAB工具实现,则对应的是“NORMINV”函数。
为了保证每个主元向量中的不同类别标记的特征能够尽可能明显和差异性 增大,一种可以选择的方法是选择样本的间距为Δzc_i(i=1,2,…,I)中的最大值, 定义为“重排间隔”,见公式(14)所示:
Δzmax=max(Δzc_1,Δzc_2,…Δzc_I) (14)
如果yc_i重排完之后的数据表示为
Figure RE-GDA0001373052550000051
Figure RE-GDA0001373052550000052
对应的期望和标准差分别为
Figure RE-GDA0001373052550000053
Figure RE-GDA0001373052550000054
则经过重排之后的,yc_i的样本期望μc_i变换成的
Figure RE-GDA0001373052550000055
可以由公式 (15)所求出:
Figure RE-GDA0001373052550000056
其中l是μc_i
Figure RE-GDA0001373052550000057
中的排序序号,μc_i
Figure RE-GDA0001373052550000058
中第l大的元素。对于第c个主 元的不同类别序号对应的主元特征,期望值之间的间距都等于Δzmax(14),这种操 作类似于一种均匀的特征表示,其克服了当样本数量增多时的“特征互相重叠” 问题。其中重排只涉及到期望的变化,对应的标准差则不发生变化。
最后,yc_i重排完之后的数据表示为
Figure RE-GDA0001373052550000059
可表示为
Figure RE-GDA00013730525500000510
其中1J×1为元素均为1、维数为J×1的向量,则yc经过重排之后的
Figure RE-GDA00013730525500000511
可表达为
Figure RE-GDA00013730525500000512
其他的所有主元向量均是按照(11)到(17)的公式所运算。接下来需要构 建新的投影矩阵,重构主元重排方法的模型。
步骤三:反向重构投影矩阵
由于步骤(2)取的是Y中的第c列向量(第c个主元)的重排过程,而 c=1,2,…,k,当重排完所有k个主元之后,得到重排之后的结果矩阵YPCR表达 式为(18)。
Figure BDA0001301300770000061
根据PCA特征提取输入数据
Figure BDA0001301300770000062
以及
Figure BDA0001301300770000063
可由式(7)的形 式重构出重排之后的投影矩阵
Figure BDA0001301300770000064
替换传统PCA的投影矩阵PT,其中
Figure BDA0001301300770000065
可由(19)算出:
Figure BDA0001301300770000066
其中X#是X的伪逆矩阵,由于X往往不是方阵,因此这里取其伪逆矩阵。常见 伪逆矩阵的求解方法:直接求法、SVD分解法和QR分解法,总结如下:
(1)直接求解
X#=(XHX)-1XH (20)
(2)SVD分解法
U×S×VT=X (21)
其中UTU=I,VTV=I,且I是单位矩阵。接着将S中的非零元素求倒数得 到矩阵T,则伪逆矩阵X#
X#=V×TT×UT (22)
(3)QR分解法
QR=X (23)
接着,按照直接法求出R#,即R#=(RHR)-1RH,则伪逆矩阵X#
X#=R#QH (24)
以上三种方法各有优势,比如直接法的运算量最小,SVD分解法和QR分 解法适合稀疏矩阵求解,因此在实际计算中,要根据具体的数据特性和要求进行 X伪逆矩阵的求解,进而尽可能准确地计算得出重排算法重构的投影矩阵。另外, 值得注意的是,如果伪逆矩阵求取的效果不佳时,PCR特征表示之后的结果数 据YPCR需要由(19)式新的投影矩阵
Figure BDA0001301300770000067
映射得出,并且求伪拟矩阵的方法也 不局限于以上求法。
附图说明
图1是本发明的主要步骤流程图;
图2是本发明的实施例所提供的PCA主元重排的故障特征表示方法的原 始数据结构;
图3是PCA主元重排的特征表示方法的具体流程框图;
图4是PCA特征提取之后数据的用于检验正态分布特性的Q-Q图
图5是PCA特征提取方法的第一主元特征数据分布图;
图6是经过PCA主元重排的故障特征表示方法之后第一主元特征数据分 布图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。
图1是本发明的主要步骤流程,其操作包含以下三个步骤:
步骤一:基于PCA方法的特征提取
PCA方法由于其运算过程存在主要特征的选取过程,因此经常被用于高维 数据的降维以及特征提取,传统的PCA方法步骤如下:
定义PCA特征提取输入数据为
Figure BDA0001301300770000071
其中M、N分别代表样本的总 数量以及每个样本中的变量数,满足M=I×J,其中I、J分别代表故障种类数 (含正常)以及每类样本的数量,因此矩阵X可以被分解为如公式(1)相等数 量的I块:
Figure BDA0001301300770000072
由2.4.3节分析,对于常见的工业采样过程,高斯噪声几乎占了大多数,假 定这里每类数据样本除了真值成分外,均含有高斯噪声,其中的第i类样本xi近 似高斯分布,求其高斯分布的均值和标准差分别为μi和σi。其中第i类样本xi可 表示为公式(2):
Figure BDA0001301300770000081
其中i=1,2,…I。则
Figure BDA0001301300770000082
的标准化矩阵为
Figure BDA0001301300770000083
为了便于表达,这里引入维数为J×1的单位向量1J×1,因此
Figure BDA0001301300770000084
的表达式如公式(3)所示:
Figure BDA0001301300770000085
其中μi_cc是xi按照其列序号顺序所求的平均值向量,维数为1×N,
Figure BDA0001301300770000086
则X的标准化矩阵
Figure BDA0001301300770000087
X*的协方差矩阵
Figure BDA0001301300770000088
见公式(4):
Figure BDA0001301300770000089
其中标记“()H”表示共轭转置运算。如果λii和vii(ii=1,2,…,N)分别是
Figure BDA00013013007700000814
所对应 的特征值和特征向量。
其累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公式(5):
Figure BDA00013013007700000810
根据公式(5),主元数目k可以由公式(6)计算得到。
Figure BDA00013013007700000811
如果定义由特征值CPV所选取的特征向量构建的投影矩阵
Figure BDA00013013007700000812
为 PT=(PT1,PT1,…,PTk),则PCA特征提取后的结果数据可由公式(7)所示。
Y=XPT (7)
Y详细的表达见公式(8):
Figure BDA00013013007700000813
其中
Figure BDA0001301300770000091
的一列代表一个主元,主元每个列向量都分别被用作重排算法的输入数据。
为了便于表示,也将矩阵Y如公式(1)行分块为
Figure BDA0001301300770000092
由于PCA 是一个按方差最大方向的正交旋转,等同于一个线性坐标变换,而一个符合高斯 分布的样本,经过线性变换,其结果也是符合高斯分布的,因为PCA的输入数 据矩阵X按照I的数量进行行分块,每一块数据矩阵均符合高斯分布,因此
Figure BDA0001301300770000093
中对应的每一块数据矩阵也是符合高斯分布的,比如第i个 类别序号对应的数据矩阵xi符合高斯分布,则对应的Yi也是高斯分布的。将传 统PCA提取得到的特征进一步的表示,使其更明显,如下文。
步骤二:主元的离线重排
这一部分,主要是运用一种基于特征的概率分布情况的重排方法,将Y中每 一个主元分别进行重排,这样主要是为了使得每个主元中的特征之间更有代表性 和明显性,便于后续的分类诊断。这部分主要有两个步骤:
(1)分别选择Y的列向量(主元)
比如选择Y中的第c列yc,其表达式为
yc=(y1c,y1c,…yMc)T (9)
其中c=1,2,…,k,如果按照类别划分,此处为I类,则yc也可以写为(10)式:
Figure RE-GDA0001373052550000094
对于每个类别序号所对应的数据,均含有J个样本。因此对于yc中的标记第 i类的向量yc_i=(y[(i-1)J+1]c,y[(i-1)J+2]c,…,y(i×J)c),其中i=1,2,…,I,因为yc_i属于Yi第c列,对于每个主元来说,其中标记第i类的特征yc_i也是属于高斯分布的,因 此可以求出yc_i对应的期望μc_i和标准差σc_i
(2)对所选主元向量重排
求出(10)每个类别序号对应的数据均值为
Figure RE-GDA0001373052550000101
其中μc_1c_2,…μc_I分别是yc_1,yc_2,…yc_I所对应的算术平均值,也是其特征数据分布对应的期望,其中第i个期望
Figure RE-GDA0001373052550000102
其中i=1,2,…,I, j=1,2,…,J。因为yc_i也是符合高斯分布的,因此可以列写出其累积分布函数 F(z,μc_ic_i),可见公式(12):
Figure RE-GDA0001373052550000103
定义yc_i分布的置信区间为CIc_i,为了使得特征的样本点数尽可能分布于所 在置信区间中,根据高斯分布的“3σ”原则,可以取 CIc_i=[μc_i-3σc_ic_i+3σc_i],因此Pr(z∈CIc_i)≈99.7%,其中i=1,2,…,I。
则第i类特征数据在CIc_i=[μc_i-3σc_ic_i+3σc_i]中概率分布的横坐标区 间长度可由公式(13)求出:
Δzc_i=2×|F-1(z<(uc_i+3σc_i),μc_ic_i)-uc_i| (13)
其中F-1是求(12)概率分布函数的反函数,一般查表能够得到,如果采用 MATLAB工具实现,则对应的是“NORMINV”函数。
为了保证每个主元向量中的不同类别标记的特征能够尽可能明显和差异性 增大,一种可以选择的方法是选择样本的间距为Δzc_i(i=1,2,…,I)中的最大值, 定义为“重排间隔”,见公式(14)所示:
Δzmax=max(Δzc_1,Δzc_2,…Δzc_I) (14)
如果yc_i重排完之后的数据表示为
Figure RE-GDA0001373052550000104
Figure RE-GDA0001373052550000105
对应的期望和标准差分别为
Figure RE-GDA0001373052550000106
Figure RE-GDA0001373052550000107
则经过重排之后的,yc_i的样本期望μc_i变换成的
Figure RE-GDA0001373052550000108
可以由公式 (15)所求出:
Figure RE-GDA0001373052550000109
其中l是μc_i
Figure RE-GDA00013730525500001010
中的排序序号,μc_i
Figure RE-GDA00013730525500001011
中第l大的元素。对于第c个主元的 不同类别序号对应的主元特征,期望值之间的间距都等于Δzmax(14),这种操作类 似于一种均匀的特征表示,其克服了当样本数量增多时的“特征互相重叠”问题。 其中重排只涉及到期望的变化,对应的标准差则不发生变化。
最后,yc_i重排完之后的数据表示为
Figure RE-GDA0001373052550000111
可表示为
Figure RE-GDA0001373052550000112
其中1J×1为元素均为1、维数为J×1的向量,则yc经过重排之后的
Figure RE-GDA0001373052550000113
可表达为
Figure RE-GDA0001373052550000114
其他的所有主元向量均是按照(11)到(17)的公式所运算。接下来需要构 建新的投影矩阵,重构主元重排方法的模型。
步骤三:反向重构投影矩阵
由于步骤2)取的是Y中的第c列向量(第c个主元)的重排过程,而 c=1,2,…,k,当重排完所有k个主元之后,得到重排之后的结果矩阵YPCR表达 式为(18)。
Figure BDA0001301300770000115
根据PCA特征提取输入数据
Figure BDA0001301300770000116
以及
Figure BDA0001301300770000117
可由式(7)的形 式重构出重排之后的投影矩阵
Figure BDA0001301300770000118
替换传统PCA的投影矩阵PT,其中
Figure BDA0001301300770000119
可由(19)算出:
Figure BDA00013013007700001110
其中X#是X的伪逆矩阵,由于X往往不是方阵,因此这里取其伪逆矩阵。 常见伪逆矩阵的求解方法:直接求法、SVD分解法和QR分解法,总结如下:
(1)直接求解
X#=(XHX)-1XH (20)
(2)SVD分解法
U×S×VT=X (21)
其中UTU=I,VTV=I,且I是单位矩阵。接着将S中的非零元素求倒数得 到矩阵T,则伪逆矩阵X#
X#=V×TT×UT (22)
(3)QR分解法
QR=X (23)
接着,按照直接法求出R#,即R#=(RHR)-1RH,则伪逆矩阵X#
X#=R#QH (24)
以上三种方法各有优势,比如直接法的运算量最小,SVD分解法和QR分 解法适合稀疏矩阵求解,因此在实际计算中,要根据具体的数据特性和要求进行 X伪逆矩阵的求解,进而尽可能准确地计算得出重排算法重构的投影矩阵。另外, 值得注意的是,如果伪逆矩阵求取的效果不佳时,PCR特征表示之后的结果数 据YPCR需要由(19)式新的投影矩阵
Figure BDA0001301300770000121
映射得出,并且求伪拟矩阵的方法也 不局限于以上求法。
为了充分表述本发明所述的技术方案,下面用具体的实施例来说明。
实施例:
图2提供了本发明PCA主元重排的故障特征表示方法的原始数据的结构 以及各个维度的含义。
图中的I代表故障的种类数,含正常情况,J是每一类故障中采集的样本 数量,原则上是相同的,避免数据不平衡给故障诊断带了影响。M是样本的总数 量,表示离线采集的不同故障的样本数量,其中满足数量关系M=I×J。其中的 N代表在每个样本中所采的点数,可能代表时域中具体时刻离散数据点的数量, 或频域中各频率点谐波幅值特征的总数量。本实施例中,I=13,J=400,M=5200, N=1000。
根据以上结构的原始数据,如图3,给出了实施例提供的PCA主元重排 的故障特征表示方法的流程图,为了便于说明,其中表述了该方法主要的部分。
步骤S101是将原始数据进行标准化,其具体步骤如下:
假设符合图1的数据样本为
Figure BDA0001301300770000131
X的第i类样本xi为正态(高斯) 分布,求其正态(高斯)分布的均值和标准差分别为μi和σi
其中第i类样本xi可表示为公式(1):
Figure BDA0001301300770000132
其中i=1,2,…I。
引入维数为J×1的单位向量1J×1,计算xi的标准化矩阵
Figure BDA0001301300770000133
的表达式如公 式(2)所示:
Figure BDA0001301300770000134
其中μi_cc是xi按照其列序号顺序所求的平均值向量,维数为1×N,
Figure BDA0001301300770000135
则X的标准化矩阵
Figure BDA0001301300770000136
S102是基于PCA进行特征提取,其步骤如下:
计算X*的协方差矩阵
Figure BDA0001301300770000137
见公式(3):
Figure BDA0001301300770000138
求出
Figure BDA0001301300770000139
所对应的特征值和特征向量:λii和vii(ii=1,2,…,N)。
设置累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公 式(4):
Figure BDA00013013007700001310
计算主元数量如公式(5):
Figure BDA00013013007700001311
S103依次选择PCA特征提取的结果矩阵中的一个主元。
S104是对所选择的主元不同故障标记的数据求期望和标准差,比如取第 c个主元中第i类主元特征数据yc_i,其期望和标准差分别为μc_i和σc_i
S105是根据正态(高斯)分布的3σ原则设置置信区间,比如对于yc_i根 据正态分布的3σ原则,则对应的置信区间为[μc_i-3σc_ic_i+3σc_i]。
S106是根据正态分布的3σ原则设置置信区间,其包含以下内容:
采用正态分布
Figure BDA0001301300770000141
的反函数求 出μc_i+3σc_i点的横坐标值。
计算对应区间长度Δzc_i=2×|F-1(z<(uc_i+3σc_i),μc_ic_i)-uc_i|。
求出最大区间长度作为重排间隔:Δzmax=max(Δzc_1,Δzc_2,…Δzc_I)。
S107环节得到重排结果矩阵:
Figure BDA0001301300770000142
S108环节采用原始数据的伪逆矩阵变换得到X#,根据公式(6)重构了 投影矩阵:
Figure BDA0001301300770000143
图4采用了Q-Q图方法检验了本实施例原始数据的正态分布性能,Q-Q 图中待检验数据和标准高斯分布线的拟合程度即代表了高斯分布的程度,在高斯 分布的“3σ原则”选取的置信区间中,实验的原始样本基本和标准高斯分布线 拟合,说明所提取的主元特征满足是“高斯分布”,因此主元重排方法也基本适 用,满足其使用的前提。
图5是本实施例原始数据PCA特征提取的结果,如果对不同类别的数据 进行标记,依次是故障1到故障13,由图可见本实施例的特征存在“重叠问题”。 为了便于查看重叠问题,对于标记为故障10和故障13以及故障11和故障12的 特征数据的分布进行放大。
发现标记为故障10和故障13以及故障11和故障12的特征数据的分布 几乎完全重合,其特征数据点和高斯分布几乎一一对应。
图6是本发明所提供的PCA主元重排的故障特征表示方法的处理结果, 采用了同一主元中不同故障特征之间的最大间距作为重排间隔,其主元特征中的 “特征重叠问题”在规定的置信区间中能够很好地克服“特征重叠问题”,满足 了提取特征需要明显的需要,对于后续的故障诊断是极有意义的。

Claims (1)

1.PCA主元重排的故障特征表示方法,其特征在于,所述方法含有以下3个步骤:
步骤一:基于PCA方法的特征提取
PCA特征提取原始数据为
Figure FDA0003005729980000011
其中M、N分别代表样本的总数量和每个样本的变量数,满足M=I×J,I、J分别代表含正常情形的故障种类数、每类样本的数量;假定每类数据样本除真值成分外均含高斯噪声,样本符合高斯分布,计算X经过PCA提取得到结果如下式:
Figure FDA0003005729980000012
步骤二:主元的离线重排
(1)选择Y的主元向量
选择Y中的第c列主元向量yc,按类别划分,yc可写为:
Figure FDA0003005729980000013
yc中的标记第i类的向量yc_i如(3)式:
yc_i=(y[(i-1)J+1]c,y[(i-1)J+2]c,…,y(i×J)c) (3)
其中i=1,2,…,I,并计算yc_i对应的期望μc_i和标准差σc_i
(2)重排所选主元向量
求出公式(2)中每个类别序号对应的数据均值:
Figure FDA0003005729980000014
即第i个期望为μc_i
Figure FDA0003005729980000015
其中i=1,2,…,I,j=1,2,…,J;
yc_i的累积分布函数F(z,μc_ic_i),可见公式(6):
Figure FDA0003005729980000021
定义yc_i分布的置信区间为CIc_i,根据高斯分布的“3σ”原则,CIc_i设置为
CIc_i=[μc_i-3σc_ic_i+3σc_i] (7)
第i类特征数据在CIc_i中概率分布的横坐标区间长度为
Δzc_i=2×|F-1(z<(μc_i+3σc_i),μc_ic_i)-μc_i| (8)
其中F-1是F(z,μc_ic_i)的反函数,求取“重排间隔”,见公式(9):
Δzmax=max(Δzc_1,Δzc_2,…Δzc_I) (9)
yc_i重排后为
Figure FDA0003005729980000022
其对应的期望和标准差分别为
Figure FDA0003005729980000023
Figure FDA0003005729980000024
利用“重排间隔”,μc_i变换成的
Figure FDA0003005729980000025
如式(10):
Figure FDA0003005729980000026
μc_i
Figure FDA0003005729980000027
中第l大的元素,其中l是μc_i
Figure FDA0003005729980000028
中的排序序号;计算yc_i重排完之后的数据
Figure FDA0003005729980000029
Figure FDA00030057299800000210
其中1J×1为元素均为1、维数为J×1的向量,计算yc经过重排之后的
Figure FDA00030057299800000211
Figure FDA00030057299800000212
其他所有主元向量均是按照(4)~(12)进行重排;
步骤三:反向重构投影矩阵
当重排完所有k个主元后,重排的结果矩阵YPCR
Figure FDA00030057299800000213
根据X及YPCR,重构出重排之后的投影矩阵
Figure FDA00030057299800000214
Figure FDA00030057299800000215
其中X#是X的伪逆矩阵,X不是方阵时取其伪逆矩阵。
CN201710364786.9A 2017-05-22 2017-05-22 Pca主元重排的故障特征表示方法 Active CN107704863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710364786.9A CN107704863B (zh) 2017-05-22 2017-05-22 Pca主元重排的故障特征表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710364786.9A CN107704863B (zh) 2017-05-22 2017-05-22 Pca主元重排的故障特征表示方法

Publications (2)

Publication Number Publication Date
CN107704863A CN107704863A (zh) 2018-02-16
CN107704863B true CN107704863B (zh) 2021-06-15

Family

ID=61169521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710364786.9A Active CN107704863B (zh) 2017-05-22 2017-05-22 Pca主元重排的故障特征表示方法

Country Status (1)

Country Link
CN (1) CN107704863B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279358A (zh) * 2011-06-20 2011-12-14 湖南大学 一种基于mcskpca的神经网络模拟电路故障诊断方法
CN103761372A (zh) * 2014-01-06 2014-04-30 上海海事大学 一种基于主元分析与多分类相关向量机的多电平逆变器故障诊断策略
CN104361238A (zh) * 2014-11-17 2015-02-18 北京信息科技大学 一种基于信息熵改进pca的故障敏感特征提取方法
CN105739489A (zh) * 2016-05-12 2016-07-06 电子科技大学 一种基于ica-knn的间歇过程故障检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279358A (zh) * 2011-06-20 2011-12-14 湖南大学 一种基于mcskpca的神经网络模拟电路故障诊断方法
CN103761372A (zh) * 2014-01-06 2014-04-30 上海海事大学 一种基于主元分析与多分类相关向量机的多电平逆变器故障诊断策略
CN104361238A (zh) * 2014-11-17 2015-02-18 北京信息科技大学 一种基于信息熵改进pca的故障敏感特征提取方法
CN105739489A (zh) * 2016-05-12 2016-07-06 电子科技大学 一种基于ica-knn的间歇过程故障检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Fault Diagnosis Framework for Air Handling Units based on the Integration of Dependency Matrices and PCA;Ying Yan等;《2014 IEEE International Conference on Automation Science and Engineering (CASE)》;20141030;第1103-1108页 *
Fault diagnosis method based on FFT-RPCA-SVM for Cascaded-Multilevel Inverter;Tianzhen Wang等;《ISATransactions》;20160131;第60卷;第1-8页 *
RPCA-SVM fault diagnosis strategy of cascaded H-bridge multilevel inverters;Xu Hao等;《2014 First International Conference on Green Energy ICGE 2014》;20140619;第164-169页 *
基于PCA-SVM模型的多电平逆变系统故障诊断;刘远 等;《电力系统保护与控制》;20130201;第41卷(第3期);第66-72页 *
基于时频图像不变矩特征提取的轴承故障诊断方法;林龙 等;《机电工程技术》;20160430;第45卷(第04期);第75-79页 *
基于重构贡献和灰关联熵的变压器诊断方法;唐勇波 等;《仪器仪表学报》;20120131;第33卷(第1期);第132-138页 *

Also Published As

Publication number Publication date
CN107704863A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
Hepp et al. Approaches to regularized regression–a comparison between gradient boosting and the lasso
CN111272429B (zh) 一种轴承故障诊断方法
CN102915436B (zh) 基于类内变化字典和训练图像的稀疏表示人脸识别方法
US6532305B1 (en) Machine learning method
CN109188244B (zh) 基于改进FastICA的开关电流电路故障诊断方法
Kong et al. Extraction of reduced fault subspace based on KDICA and its application in fault diagnosis
CN106067034B (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN110472417B (zh) 基于卷积神经网络的恶意软件操作码分析方法
CN116523320B (zh) 基于互联网大数据的知识产权风险智能分析方法
CN111476100B (zh) 基于主成分分析的数据处理方法、装置及存储介质
Zhang et al. Maximum margin multisurface support tensor machines with application to image classification and segmentation
Zhang et al. Robust multivariate control chart based on goodness-of-fit test
CN107704863B (zh) Pca主元重排的故障特征表示方法
CN110673577B (zh) 一种复杂化工生产过程的分布式监控与故障诊断方法
Alrawashdeh et al. Wilk’s lambda based on robust method
Nakagawa et al. Quantitative understanding of VAE as a non-linearly scaled isometric embedding
CN107368849B (zh) 一种基于互相关熵的共用空间模式空域特征提取方法
CN109308491A (zh) 一种用于多工位冷镦机状态检测的改进多分类支持向量机方法
Fei et al. Fault Diagnosis Method for Hydraulic Pump Based on Fuzzy Entropy of Wavelet Packet and LLTSA.
Wang et al. Estimating mixture models via mixtures of polynomials
CN113435255A (zh) 一种基于特征融合的发动机故障诊断方法
Miao et al. Process monitoring based on generalized orthogonal neighborhood preserving embedding
Dawoud et al. A New Two Parameter Biased Estimator for the Unrestricted Linear Regression Model: Theory, Simulation, and Application
Riesen et al. Reducing the dimensionality of vector space embeddings of graphs
Zhang et al. Improved locally linear embedding based method for nonlinear system fault detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant