CN113554061A

CN113554061A - 重构pca算法中主元个数的选择方法

Info

Publication number: CN113554061A
Application number: CN202110709909.4A
Authority: CN
Inventors: 司风琪; 赵佳璐; 任少君; 金生祥
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-26
Anticipated expiration: 2041-06-25
Also published as: CN113554061B

Abstract

本发明公开了一种重构PCA算法中主元个数的选择方法，涉及热工过程故障诊断技术领域，解决了现有重构PCA算法中主元个数无法有效选择的技术问题，其技术方案要点是利用蒙特卡洛法模拟的故障涵盖情况比较全面且更加接近于实际情况，故障诊断性能评估的可信度更高；提出了一套完整系统的故障诊断性能评估评分机制，更加直观的表现出模型性能的优劣；利用聚类的方法对测试样本集进行了约简，使得测试数据涵盖的特性较为全面的同时又减少了冗余的数据量，节约计算资源。

Description

重构PCA算法中主元个数的选择方法

技术领域

本公开涉及热工过程故障诊断技术领域，尤其涉及一种重构PCA算法中主元个数的选择方法。

背景技术

电力系统的稳定运行对维护国家安全具有至关重要的作用，为确保其安全稳定运行，建立高效可靠的故障诊断系统是十分有必要的。基于数据驱动的故障诊断技术旨在从数据中学习系统的运行状态，实现对设备和生产过程的优化决策与控制，是目前较为实用的诊断技术。近年来，随着工业信息化在电力生产行业的快速推行，大量的热工过程数据得到了采集和保存，这为数据驱动故障诊断提供了数据基础。

主元分析(PCA,principal components analysis)是一种常见的基于数据驱动的故障诊断技术，已经广泛运用于石油、化工、发电等领域。主元个数是PCA模型的唯一超调量，选择合适的主元个数对保证模型诊断性能具有重要意义。如果选择的主元比所需的要少，所建模型将遗漏部分信息而导致过程结果不能被完整的表示；相反，如果选择了比所需主元更多的主元个数，模型就会被过度参数化，并将过多的噪音包括进来，增加分析和诊断的复杂度。此外，重构PCA算法是常规PCA算法的改进算法，研究表明，重构PCA算法具有比PCA算法更优的故障诊断性能，但是它同样面临着主元个数的选择问题。

解决重构PCA算法中主元个数的选择问题，对提高电站热工过程的故障诊断水平具有十分重要的意义。

发明内容

本公开提供了一种重构PCA算法中主元个数的选择方法，其技术目的是解决重构PCA算法中主元个数的选择问题，以提高电站热工过程的故障诊断水平。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种重构PCA算法中主元个数的选择方法，包括：

S1：根据热工过程选择系统参数并获取历史测量数据作为训练样本集X，根据重构PCA算法将所述训练样本集X分解为得分矩阵U和载荷矩阵P，计算得到协方差矩阵S，并建立重构PCA模型；

其中，X＝{x₁,x₂,...,x_L}，下标L表示训练样本集的样本个数，样本x_i∈X，i∈[1,L]，样本x_i＝{x_i1,x_i2,…,x_in}，i表示样本编号，n表示每个训练样本的变量个数；

其中

表示重构矩阵，

表示残差矩阵，

所述得分矩阵U的各列相互正交，可得到协方差矩阵

其中，

λ_i'表示协方差矩阵S的特征值，i'∈[1,n]；

S2：从所述训练样本集X之外的任意时间段中选择样本数据作为测试样本集T_original，T_orginal＝{x₁,x₂,…,x_M}，M表示测试样本集的样本个数，样本x_j∈T_orginal，样本x_j＝{x_j1,x_j2,...,x_jn}，j表示样本编号，n表示每个测试样本的变量个数；

S3：通过Star Clustering算法对所述测试样本集T_original进行聚类，并对所述测试样本集T_original进行约简，得到约简后的约减样本集T_reduction＝{x₁,x₂,...,x_N}，N表示约简后的样本个数，N≤M；

S4：通过蒙特卡罗法形成N_f组故障测试样本，包括：

S41：初始化样本编号No.＝1；

S42：从T_reduction中随机选择一个约简样本x_k，k∈[1,N]；

S43：随机生成一个整数F，F表示在约简样本x_k中的F个变量上施加故障偏差，F∈(0,E]，E＜n；

S44：在[1,n]区间内生成F个随机整数Q，Q＝{q_k'}，在对应参数极差±100％的范围内生成F个随机数A，A＝{a_k'}，在约简样本x_k的第q_k'个变量上施加大小为a_k'的偏差值，得到第No.组的故障测试样本；

S45：若No.＜N_f，更新No.＝No.+1，重复步骤S42至S44，否则停止生成故障测试样本，最终得到N_f组故障测试样本，即故障测试样本集X_f；

S5：将所述故障测试样本集X_f输入待评估的所述重构PCA模型进行故障诊断，包括：

选择主元个数，根据协方差矩阵S和载荷矩阵P得到所述重构PCA模型，以SPE统计量和T2统计量作为所述重构PCA模型故障检测的判断依据，得到故障测试样本集X_f的故障的诊出率β_FDR和误诊率β_FAR，包括：

其中，m表示故障测试样本集X_f中的样本数量，n表示X_f中样本x_f的参数量的数量，f∈[1,m]；o_f表示诊断出的故障数量，r_f表示每个测试样本中的真实故障的数量；p_f表示正常情况下错误诊出的故障数量；n-r_f表示每个测试样本中的正常参数的数量；

S6：若所述重构PCA模型中每个样本的变量数为m'，总主元个数为n'，根据所述步骤S5计算得到第l个变量数的故障诊出率β_FDR(l)∈[0,1]和误诊率β_FAR(l)∈[0,1]，设定第l个变量数的得分权重为ω(l)，则该重构PCA模型的故障诊断评估得分为：

S7：依次从1至n'设置所述重构PCA模型的主元个数，重复所述步骤S4至S6，得到不同主元个数下所述重构PCA模型的故障诊断评估得分，则故障诊断评估得分的最高分对应的主元个数即为所述重构PCA模型的最佳主元个数。

本公开的有益效果在于：

(1)利用蒙特卡洛法模拟的故障涵盖情况比较全面且更加接近于实际情况，故障诊断性能评估的可信度更高。

(2)提出了一套完整系统的故障诊断性能评估评分机制，更加直观的表现出模型性能的优劣。

(3)利用聚类的方法对测试样本集进行了约简，使得测试数据涵盖的特性较为全面的同时又减少了冗余的数据量，节约计算资源。

附图说明

图1为本公开所述方法的流程图；

图2为本申请诊出率和误诊率对应得分的示意图；

图3为本申请实施例中不同主元个数对应的重构PCA模型的得分情况示意图。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。

图1为本申请所述方法的流程图，如图1所示，该方法包括：步骤S1：根据热工过程选择系统参数并获取历史测量数据作为训练样本集X，根据重构PCA算法将所述训练样本集X分解为得分矩阵U和载荷矩阵P，计算得到协方差矩阵S，并建立重构PCA模型。

其中，X＝{x₁,x₂,...,x_L}，下标L表示训练样本集的样本个数，样本x_i∈X，i∈[1,L]，样本x_i＝{x_i1,x_i2,…,x_in}，i表示样本编号，n表示每个训练样本的变量个数。

其中

表示重构矩阵，

表示残差矩阵，

所述得分矩阵U的各列相互正交，可得到协方差矩阵

其中，

λ_i'表示协方差矩阵S的特征值，i'∈[1,n]。

步骤S2：从所述训练样本集X之外的任意时间段中选择样本数据作为测试样本集T_original，T_orginal＝{x₁,x₂,…,x_M}，M表示测试样本集的样本个数，样本x_j∈T_orginal，样本x_j＝{x_j1,x_j2,...,x_jn}，j表示样本编号，n表示每个测试样本的变量个数。

步骤S3：通过Star Clustering算法对所述测试样本集T_original进行聚类，并对所述测试样本集T_original进行约简，得到约简后的约减样本集T_reduction＝{x₁,x₂,...,x_N}，N表示约简后的样本个数，N≤M。

步骤S4：通过蒙特卡罗法形成N_f组故障测试样本，包括：

S41：初始化样本编号No.＝1。

S42：从T_reduction中随机选择一个约简样本x_k，k∈[1,N]。

S43：随机生成一个整数F，F表示在约简样本x_k中的F个变量上施加故障偏差，F∈(0,E]，E＜n。

S44：在[1,n]区间内生成F个随机整数Q，Q＝{q_k'}，在对应参数极差±100％的范围内生成F个随机数A，A＝{a_k'}，在约简样本x_k的第q_k'个变量上施加大小为a_k'的偏差值，得到第No.组的故障测试样本。

S45：若No.＜N_f，更新No.＝No.+1，重复步骤S42至S44，否则停止生成故障测试样本，最终得到N_f组故障测试样本，即故障测试样本集X_f。

步骤S5：将所述故障测试样本集X_f输入待评估的所述重构PCA模型进行故障诊断，包括：

其中，m表示故障测试样本集X_f中的样本数量，n表示X_f中样本x_f的参数量的数量，f∈[1,m]；o_f表示诊断出的故障数量，r_f表示每个测试样本中的真实故障的数量；p_f表示正常情况下错误诊出的故障数量；n-r_f表示每个测试样本中的正常参数的数量。

图2为本申请诊出率和误诊率对应得分的示意图，如图2所示，诊出率过低(小于0.5)认为重构PCA模型不达标，重构PCA模型几乎不得分，当诊出率处于0.7-0.9之间时，重构PCA模型得分迅速增加，直至诊出率达到0.9以上，重构PCA模型得分接近于满分；同理，误诊率过高(大于0.5)认为重构PCA模型不达标，重构PCA模型扣100分，当误诊率处于0.1-0.3之间时，重构PCA模型减分迅速减小，直至诊出率控制在0.1之内，重构PCA模型几乎不扣分。

对于故障诊断来说，希望诊断算法诊出率越高，误诊率越低，该打分标准综合考虑重构PCA模型评估时对误诊率和诊出率的要求，最后得分能够达到较高评分的重构PCA模型都是能够满足高诊出率和低误诊率的较高质量模型。

步骤S6：若所述重构PCA模型中每个样本的变量数为m'，总主元个数为n'，根据所述步骤S5计算得到第l个变量数的故障诊出率β_FDR(l)∈[0,1]和误诊率β_FAR(l)∈[0,1]，设定第l个变量数的得分权重为ω(l)，则该重构PCA模型的故障诊断评估得分为：

步骤S7：依次从1至n'设置所述重构PCA模型的主元个数，重复所述步骤S4至S6，得到不同主元个数下所述重构PCA模型的故障诊断评估得分，则故障诊断评估得分的最高分对应的主元个数即为所述重构PCA模型的最佳主元个数。

作为具体实施例地，本申请以600MW电厂热力系统#1高加为对象进行算例分析，选取表1所示的7个测点建立重构PCA模型，其训练时长234.58h，采样间隔时间为30s，取样2758。

变量	测点名称	单位
			M1	#1高加出口给水温度	℃
M2	#1高加疏水温度	℃
			M3	#1高加水位调阀阀位
M4	#2高加出口给水温度	℃
			M5	#2高加疏水温度	℃
M6	#2高加水位调阀阀位	℃
			M7	#3高加出口给水温度	℃
M8	#3高加疏水温度	℃
			M9	#3高加水位调阀阀位
M10	发电机有功功率	MW
			M11	给水泵出口母管给水温度	℃

表1

从M1至M11这11个变量中选择主元个数，并用蒙特卡洛法形成故障样本对不同主元个数的模型进行评估，从而选择出使得模型诊断评估性能得分最高的主元个数，具体步骤如下：

(1)设置主元个数为1。

(2)初始化样本编号No.＝1。

(3)从T_reduction中随机选择一个约简样本x_k，k∈[1,N]。

(4)随机生成一个整数F，F表示在约简样本x_k中的F个变量上施加故障偏差，F∈(0,4]。

(5)在[1,11]区间内生成F个随机整数Q，Q＝{q_k'}，在对应参数极差±100％的范围内生成F个随机数A，A＝{a_k'}，在约简样本x_k的第q_k'个变量上施加大小为a_k'的偏差值，得到第No.组的故障测试样本。

(6)若No.＜10000，更新No.＝No.+1，重复步骤(2)至(5)，否则停止生成故障测试样本。

(7)得到10000组故障测试样本，即故障测试样本集X_f。

(8)将故障测试样本集X_f输入到待评估的重构PCA模型得到各变量对应的诊出率和误诊率。

(9)根据评估得分公式，利用11个变量的诊出率和误诊率计算得到主元个数为1的情况下的重构PCA模型的分数Score1。

(10)设置主元个数加1，重复(2)至(9)，得到主元个数为2的情况下的重构PCA模型的分数Score2。以此类推，直至得到全部主元个数的得分，如图3所示，得分最高的即为最佳主元个数。

如图3所示，主元个数存在一个最佳值，不是越高越好也不是越低越好。综合评分指标，即采用误诊率加分，诊出率扣分的评分方法，综合的考虑了误诊率和诊出率的影响，因此在该指标下仍能得到高分的模型必定具有较高的误诊率和诊出率，评估效果优越。

以上为本公开示范性实施例，本公开的保护范围由权利要求书及其等效物限定。