CN113554061A - 重构pca算法中主元个数的选择方法 - Google Patents
重构pca算法中主元个数的选择方法 Download PDFInfo
- Publication number
- CN113554061A CN113554061A CN202110709909.4A CN202110709909A CN113554061A CN 113554061 A CN113554061 A CN 113554061A CN 202110709909 A CN202110709909 A CN 202110709909A CN 113554061 A CN113554061 A CN 113554061A
- Authority
- CN
- China
- Prior art keywords
- sample
- reconstructed
- fault
- sample set
- test sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明公开了一种重构PCA算法中主元个数的选择方法,涉及热工过程故障诊断技术领域,解决了现有重构PCA算法中主元个数无法有效选择的技术问题,其技术方案要点是利用蒙特卡洛法模拟的故障涵盖情况比较全面且更加接近于实际情况,故障诊断性能评估的可信度更高;提出了一套完整系统的故障诊断性能评估评分机制,更加直观的表现出模型性能的优劣;利用聚类的方法对测试样本集进行了约简,使得测试数据涵盖的特性较为全面的同时又减少了冗余的数据量,节约计算资源。
Description
技术领域
本公开涉及热工过程故障诊断技术领域,尤其涉及一种重构PCA算法中主元个数的选择方法。
背景技术
电力系统的稳定运行对维护国家安全具有至关重要的作用,为确保其安全稳定运行,建立高效可靠的故障诊断系统是十分有必要的。基于数据驱动的故障诊断技术旨在从数据中学习系统的运行状态,实现对设备和生产过程的优化决策与控制,是目前较为实用的诊断技术。近年来,随着工业信息化在电力生产行业的快速推行,大量的热工过程数据得到了采集和保存,这为数据驱动故障诊断提供了数据基础。
主元分析(PCA,principal components analysis)是一种常见的基于数据驱动的故障诊断技术,已经广泛运用于石油、化工、发电等领域。主元个数是PCA模型的唯一超调量,选择合适的主元个数对保证模型诊断性能具有重要意义。如果选择的主元比所需的要少,所建模型将遗漏部分信息而导致过程结果不能被完整的表示;相反,如果选择了比所需主元更多的主元个数,模型就会被过度参数化,并将过多的噪音包括进来,增加分析和诊断的复杂度。此外,重构PCA算法是常规PCA算法的改进算法,研究表明,重构PCA算法具有比PCA算法更优的故障诊断性能,但是它同样面临着主元个数的选择问题。
解决重构PCA算法中主元个数的选择问题,对提高电站热工过程的故障诊断水平具有十分重要的意义。
发明内容
本公开提供了一种重构PCA算法中主元个数的选择方法,其技术目的是解决重构PCA算法中主元个数的选择问题,以提高电站热工过程的故障诊断水平。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种重构PCA算法中主元个数的选择方法,包括:
S1:根据热工过程选择系统参数并获取历史测量数据作为训练样本集X,根据重构PCA算法将所述训练样本集X分解为得分矩阵U和载荷矩阵P,计算得到协方差矩阵S,并建立重构PCA模型;
其中,X={x1,x2,...,xL},下标L表示训练样本集的样本个数,样本xi∈X,i∈[1,L],样本xi={xi1,xi2,…,xin},i表示样本编号,n表示每个训练样本的变量个数;
S2:从所述训练样本集X之外的任意时间段中选择样本数据作为测试样本集Toriginal,Torginal={x1,x2,…,xM},M表示测试样本集的样本个数,样本xj∈Torginal,样本xj={xj1,xj2,...,xjn},j表示样本编号,n表示每个测试样本的变量个数;
S3:通过Star Clustering算法对所述测试样本集Toriginal进行聚类,并对所述测试样本集Toriginal进行约简,得到约简后的约减样本集Treduction={x1,x2,...,xN},N表示约简后的样本个数,N≤M;
S4:通过蒙特卡罗法形成Nf组故障测试样本,包括:
S41:初始化样本编号No.=1;
S42:从Treduction中随机选择一个约简样本xk,k∈[1,N];
S43:随机生成一个整数F,F表示在约简样本xk中的F个变量上施加故障偏差,F∈(0,E],E<n;
S44:在[1,n]区间内生成F个随机整数Q,Q={qk'},在对应参数极差±100%的范围内生成F个随机数A,A={ak'},在约简样本xk的第qk'个变量上施加大小为ak'的偏差值,得到第No.组的故障测试样本;
S45:若No.<Nf,更新No.=No.+1,重复步骤S42至S44,否则停止生成故障测试样本,最终得到Nf组故障测试样本,即故障测试样本集Xf;
S5:将所述故障测试样本集Xf输入待评估的所述重构PCA模型进行故障诊断,包括:
选择主元个数,根据协方差矩阵S和载荷矩阵P得到所述重构PCA模型,以SPE统计量和T2统计量作为所述重构PCA模型故障检测的判断依据,得到故障测试样本集Xf的故障的诊出率βFDR和误诊率βFAR,包括:
其中,m表示故障测试样本集Xf中的样本数量,n表示Xf中样本xf的参数量的数量,f∈[1,m];of表示诊断出的故障数量,rf表示每个测试样本中的真实故障的数量;pf表示正常情况下错误诊出的故障数量;n-rf表示每个测试样本中的正常参数的数量;
S6:若所述重构PCA模型中每个样本的变量数为m',总主元个数为n',根据所述步骤S5计算得到第l个变量数的故障诊出率βFDR(l)∈[0,1]和误诊率βFAR(l)∈[0,1],设定第l个变量数的得分权重为ω(l),则该重构PCA模型的故障诊断评估得分为:
S7:依次从1至n'设置所述重构PCA模型的主元个数,重复所述步骤S4至S6,得到不同主元个数下所述重构PCA模型的故障诊断评估得分,则故障诊断评估得分的最高分对应的主元个数即为所述重构PCA模型的最佳主元个数。
本公开的有益效果在于:
(1)利用蒙特卡洛法模拟的故障涵盖情况比较全面且更加接近于实际情况,故障诊断性能评估的可信度更高。
(2)提出了一套完整系统的故障诊断性能评估评分机制,更加直观的表现出模型性能的优劣。
(3)利用聚类的方法对测试样本集进行了约简,使得测试数据涵盖的特性较为全面的同时又减少了冗余的数据量,节约计算资源。
附图说明
图1为本公开所述方法的流程图;
图2为本申请诊出率和误诊率对应得分的示意图;
图3为本申请实施例中不同主元个数对应的重构PCA模型的得分情况示意图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。
图1为本申请所述方法的流程图,如图1所示,该方法包括:步骤S1:根据热工过程选择系统参数并获取历史测量数据作为训练样本集X,根据重构PCA算法将所述训练样本集X分解为得分矩阵U和载荷矩阵P,计算得到协方差矩阵S,并建立重构PCA模型。
其中,X={x1,x2,...,xL},下标L表示训练样本集的样本个数,样本xi∈X,i∈[1,L],样本xi={xi1,xi2,…,xin},i表示样本编号,n表示每个训练样本的变量个数。
步骤S2:从所述训练样本集X之外的任意时间段中选择样本数据作为测试样本集Toriginal,Torginal={x1,x2,…,xM},M表示测试样本集的样本个数,样本xj∈Torginal,样本xj={xj1,xj2,...,xjn},j表示样本编号,n表示每个测试样本的变量个数。
步骤S3:通过Star Clustering算法对所述测试样本集Toriginal进行聚类,并对所述测试样本集Toriginal进行约简,得到约简后的约减样本集Treduction={x1,x2,...,xN},N表示约简后的样本个数,N≤M。
步骤S4:通过蒙特卡罗法形成Nf组故障测试样本,包括:
S41:初始化样本编号No.=1。
S42:从Treduction中随机选择一个约简样本xk,k∈[1,N]。
S43:随机生成一个整数F,F表示在约简样本xk中的F个变量上施加故障偏差,F∈(0,E],E<n。
S44:在[1,n]区间内生成F个随机整数Q,Q={qk'},在对应参数极差±100%的范围内生成F个随机数A,A={ak'},在约简样本xk的第qk'个变量上施加大小为ak'的偏差值,得到第No.组的故障测试样本。
S45:若No.<Nf,更新No.=No.+1,重复步骤S42至S44,否则停止生成故障测试样本,最终得到Nf组故障测试样本,即故障测试样本集Xf。
步骤S5:将所述故障测试样本集Xf输入待评估的所述重构PCA模型进行故障诊断,包括:
选择主元个数,根据协方差矩阵S和载荷矩阵P得到所述重构PCA模型,以SPE统计量和T2统计量作为所述重构PCA模型故障检测的判断依据,得到故障测试样本集Xf的故障的诊出率βFDR和误诊率βFAR,包括:
其中,m表示故障测试样本集Xf中的样本数量,n表示Xf中样本xf的参数量的数量,f∈[1,m];of表示诊断出的故障数量,rf表示每个测试样本中的真实故障的数量;pf表示正常情况下错误诊出的故障数量;n-rf表示每个测试样本中的正常参数的数量。
图2为本申请诊出率和误诊率对应得分的示意图,如图2所示,诊出率过低(小于0.5)认为重构PCA模型不达标,重构PCA模型几乎不得分,当诊出率处于0.7-0.9之间时,重构PCA模型得分迅速增加,直至诊出率达到0.9以上,重构PCA模型得分接近于满分;同理,误诊率过高(大于0.5)认为重构PCA模型不达标,重构PCA模型扣100分,当误诊率处于0.1-0.3之间时,重构PCA模型减分迅速减小,直至诊出率控制在0.1之内,重构PCA模型几乎不扣分。
对于故障诊断来说,希望诊断算法诊出率越高,误诊率越低,该打分标准综合考虑重构PCA模型评估时对误诊率和诊出率的要求,最后得分能够达到较高评分的重构PCA模型都是能够满足高诊出率和低误诊率的较高质量模型。
步骤S6:若所述重构PCA模型中每个样本的变量数为m',总主元个数为n',根据所述步骤S5计算得到第l个变量数的故障诊出率βFDR(l)∈[0,1]和误诊率βFAR(l)∈[0,1],设定第l个变量数的得分权重为ω(l),则该重构PCA模型的故障诊断评估得分为:
步骤S7:依次从1至n'设置所述重构PCA模型的主元个数,重复所述步骤S4至S6,得到不同主元个数下所述重构PCA模型的故障诊断评估得分,则故障诊断评估得分的最高分对应的主元个数即为所述重构PCA模型的最佳主元个数。
作为具体实施例地,本申请以600MW电厂热力系统#1高加为对象进行算例分析,选取表1所示的7个测点建立重构PCA模型,其训练时长234.58h,采样间隔时间为30s,取样2758。
变量 | 测点名称 | 单位 |
M1 | #1高加出口给水温度 | ℃ |
M2 | #1高加疏水温度 | ℃ |
M3 | #1高加水位调阀阀位 | |
M4 | #2高加出口给水温度 | ℃ |
M5 | #2高加疏水温度 | ℃ |
M6 | #2高加水位调阀阀位 | ℃ |
M7 | #3高加出口给水温度 | ℃ |
M8 | #3高加疏水温度 | ℃ |
M9 | #3高加水位调阀阀位 | |
M10 | 发电机有功功率 | MW |
M11 | 给水泵出口母管给水温度 | ℃ |
表1
从M1至M11这11个变量中选择主元个数,并用蒙特卡洛法形成故障样本对不同主元个数的模型进行评估,从而选择出使得模型诊断评估性能得分最高的主元个数,具体步骤如下:
(1)设置主元个数为1。
(2)初始化样本编号No.=1。
(3)从Treduction中随机选择一个约简样本xk,k∈[1,N]。
(4)随机生成一个整数F,F表示在约简样本xk中的F个变量上施加故障偏差,F∈(0,4]。
(5)在[1,11]区间内生成F个随机整数Q,Q={qk'},在对应参数极差±100%的范围内生成F个随机数A,A={ak'},在约简样本xk的第qk'个变量上施加大小为ak'的偏差值,得到第No.组的故障测试样本。
(6)若No.<10000,更新No.=No.+1,重复步骤(2)至(5),否则停止生成故障测试样本。
(7)得到10000组故障测试样本,即故障测试样本集Xf。
(8)将故障测试样本集Xf输入到待评估的重构PCA模型得到各变量对应的诊出率和误诊率。
(9)根据评估得分公式,利用11个变量的诊出率和误诊率计算得到主元个数为1的情况下的重构PCA模型的分数Score1。
(10)设置主元个数加1,重复(2)至(9),得到主元个数为2的情况下的重构PCA模型的分数Score2。以此类推,直至得到全部主元个数的得分,如图3所示,得分最高的即为最佳主元个数。
如图3所示,主元个数存在一个最佳值,不是越高越好也不是越低越好。综合评分指标,即采用误诊率加分,诊出率扣分的评分方法,综合的考虑了误诊率和诊出率的影响,因此在该指标下仍能得到高分的模型必定具有较高的误诊率和诊出率,评估效果优越。
以上为本公开示范性实施例,本公开的保护范围由权利要求书及其等效物限定。
Claims (1)
1.一种重构PCA算法中主元个数的选择方法,其特征在于,包括:
S1:根据热工过程选择系统参数并获取历史测量数据作为训练样本集X,根据重构PCA算法将所述训练样本集X分解为得分矩阵U和载荷矩阵P,计算得到协方差矩阵S,并建立重构PCA模型;
其中,X={x1,x2,...,xL},下标L表示训练样本集的样本个数,样本xi∈X,i∈[1,L],样本xi={xi1,xi2,…,xin},i表示样本编号,n表示每个训练样本的变量个数;
S2:从所述训练样本集X之外的任意时间段中选择样本数据作为测试样本集Toriginal,Torginal={x1,x2,…,xM},M表示测试样本集的样本个数,样本xj∈Torginal,样本xj={xj1,xj2,...,xjn},j表示样本编号,n表示每个测试样本的变量个数;
S3:通过Star Clustering算法对所述测试样本集Toriginal进行聚类,并对所述测试样本集Toriginal进行约简,得到约简后的约减样本集Treduction={x1,x2,...,xN},N表示约简后的样本个数,N≤M;
S4:通过蒙特卡罗法形成Nf组故障测试样本,包括:
S41:初始化样本编号No.=1;
S42:从Treduction中随机选择一个约简样本xk,k∈[1,N];
S43:随机生成一个整数F,F表示在约简样本xk中的F个变量上施加故障偏差,F∈(0,E],E<n;
S44:在[1,n]区间内生成F个随机整数Q,Q={qk'},在对应参数极差±100%的范围内生成F个随机数A,A={ak'},在约简样本xk的第qk'个变量上施加大小为ak'的偏差值,得到第No.组的故障测试样本;
S45:若No.<Nf,更新No.=No.+1,重复步骤S42至S44,否则停止生成故障测试样本,最终得到Nf组故障测试样本,即故障测试样本集Xf;
S5:将所述故障测试样本集Xf输入待评估的所述重构PCA模型进行故障诊断,包括:
选择主元个数,根据协方差矩阵S和载荷矩阵P得到所述重构PCA模型,以SPE统计量和T2统计量作为所述重构PCA模型故障检测的判断依据,得到故障测试样本集Xf的故障的诊出率βFDR和误诊率βFAR,包括:
其中,m表示故障测试样本集Xf中的样本数量,n表示Xf中样本xf的参数量的数量,f∈[1,m];of表示诊断出的故障数量,rf表示每个测试样本中的真实故障的数量;pf表示正常情况下错误诊出的故障数量;n-rf表示每个测试样本中的正常参数的数量;
S6:若所述重构PCA模型中每个样本的变量数为m',总主元个数为n',根据所述步骤S5计算得到第l个变量数的故障诊出率βFDR(l)∈[0,1]和误诊率βFAR(l)∈[0,1],设定第l个变量数的得分权重为ω(l),则该重构PCA模型的故障诊断评估得分为:
S7:依次从1至n'设置所述重构PCA模型的主元个数,重复所述步骤S4至S6,得到不同主元个数下所述重构PCA模型的故障诊断评估得分,则故障诊断评估得分的最高分对应的主元个数即为所述重构PCA模型的最佳主元个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709909.4A CN113554061B (zh) | 2021-06-25 | 2021-06-25 | 重构pca算法中主元个数的选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709909.4A CN113554061B (zh) | 2021-06-25 | 2021-06-25 | 重构pca算法中主元个数的选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113554061A true CN113554061A (zh) | 2021-10-26 |
CN113554061B CN113554061B (zh) | 2022-11-22 |
Family
ID=78102397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110709909.4A Active CN113554061B (zh) | 2021-06-25 | 2021-06-25 | 重构pca算法中主元个数的选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113554061B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062565A (zh) * | 2017-12-12 | 2018-05-22 | 重庆科技学院 | 基于化工te过程的双主元-动态核主元分析故障诊断方法 |
CN109062189A (zh) * | 2018-08-30 | 2018-12-21 | 华中科技大学 | 一种用于复杂故障的工业过程故障诊断方法 |
CN109062196A (zh) * | 2018-10-31 | 2018-12-21 | 东北大学 | 一种集成pca-ica的高炉过程监测及故障诊断方法 |
CN110083860A (zh) * | 2019-03-13 | 2019-08-02 | 东北大学 | 一种基于相关变量选择的工业故障诊断方法 |
-
2021
- 2021-06-25 CN CN202110709909.4A patent/CN113554061B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062565A (zh) * | 2017-12-12 | 2018-05-22 | 重庆科技学院 | 基于化工te过程的双主元-动态核主元分析故障诊断方法 |
CN109062189A (zh) * | 2018-08-30 | 2018-12-21 | 华中科技大学 | 一种用于复杂故障的工业过程故障诊断方法 |
CN109062196A (zh) * | 2018-10-31 | 2018-12-21 | 东北大学 | 一种集成pca-ica的高炉过程监测及故障诊断方法 |
CN110083860A (zh) * | 2019-03-13 | 2019-08-02 | 东北大学 | 一种基于相关变量选择的工业故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113554061B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Data-fusion prognostics of proton exchange membrane fuel cell degradation | |
CN110779745B (zh) | 一种基于bp神经网络的换热器早期故障诊断方法 | |
CN111159844B (zh) | 一种电站燃气轮机排气温度的异常检测方法 | |
CN110046409B (zh) | 一种基于ResNet的汽轮机部件健康状态评估方法 | |
CN108390380B (zh) | 一种变压器状态参量趋势预测方法及系统 | |
Li et al. | False alarm reducing in PCA method for sensor fault detection in a nuclear power plant | |
CN117113166A (zh) | 一种基于改进的集成学习的工业锅炉故障检测方法 | |
CN113011102A (zh) | 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法 | |
CN114595883A (zh) | 基于元学习的油浸式变压器剩余寿命个性化动态预测方法 | |
CN113554061B (zh) | 重构pca算法中主元个数的选择方法 | |
Gu et al. | Data-physics-model based fatigue reliability assessment methodology for high-temperature components and its application in steam turbine rotor | |
CN111241629B (zh) | 基于数据驱动的飞机液压泵性能变化趋势智能预测方法 | |
CN116793666A (zh) | 一种基于lstm-mlp-lsgan模型的风电机组齿轮箱故障诊断方法 | |
CN107272625B (zh) | 一种基于贝叶斯理论的工业过程故障诊断方法 | |
CN112507526B (zh) | 一种质子交换燃料电池系统性能预测方法及系统 | |
CN111931349B (zh) | 基于动态主元分析的csth的乘性故障诊断方法 | |
CN112748663B (zh) | 一种基于数据驱动输出反馈的风电转矩容错控制方法 | |
TW584732B (en) | CMAC_based fault diagnosis of power transformers | |
CN112085083B (zh) | 一种基于相近度分析策略的变压器故障诊断方法 | |
CN114154686A (zh) | 一种基于集成学习的大坝变形预测方法 | |
CN115035962A (zh) | 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法 | |
CN113191556A (zh) | 一种核电Loca事件故障预测与诊断方法 | |
CN106339588A (zh) | 基于灰色系统理论的加速退化数据离散建模方法 | |
Bouzem et al. | Probabilistic and Reliability Analysis of an Intelligent Power Control for a Doubly Fed Induction Generator-Based Wind Turbine System | |
CN117499199B (zh) | 一种基于vae的信息增强解耦网络故障诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |