CN114357870A

CN114357870A - 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Info

Publication number: CN114357870A
Application number: CN202111582553.9A
Authority: CN
Inventors: 周玉; 陈霄; 邵雪松; 高凡; 李悦; 崔高颖; 周超; 穆卓文
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-15

Abstract

本申请公开了基于局部加权偏最小二乘的计量设备运行性能预测分析方法，包括：获取待预测计量设备的历史运行数据集并预处理数据集，将数据集划分为训练集与测试集；采用K‑Means聚类算法将训练集聚类成若干个子训练集，并计算每个子训练集的质心；评价模型的预测精度和性能；获取运行数据，将运行数据与每个子训练集结合，利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模，并得到每个子模型下运行数据对应的采集成功率预测值，根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值。本发明具有较高的预测精度，可以有效应用于气候因素下的计量设备运行性能预测分析中。

Description

基于局部加权偏最小二乘的计量设备运行性能预测分析方法

技术领域

本发明属于电力环境下的软测量建模技术领域，涉及基于局部加权偏最小二乘的计量设备运行性能预测分析方法。

背景技术

偏最小二乘算法(PLS)是第二代的建模回归算法，集成了多元线性回归(MLR)、主元分析(PCA)和典型相关分析(CCA)，能够同时实现回归建模、数据结构简化以及变量之间的相关性分析。

PLS具有简单稳健、计算量小、预测精度高、易于定性解释等优点，适合对工业过程中维数高、非线性强、变量间相互耦合严重以及掺杂噪声的数据建模。PLS从本质上来看，仍旧是一种线性、静态的建模方法。

而在电力环境下面临的大多是非线性、含阶段特性的问题，直接利用传统的PLS不能保证模型的预测精度和稳定性。因此需要结合电力环境下的实际情况，选择合适的建模及优化算法，提高模型处理非线性问题的能力和改善其动态特性。

发明内容

为解决现有技术中的不足，本申请提供基于局部加权偏最小二乘的计量设备运行性能预测分析方法，可实现非线性和即时性预测，预测准确度较高。

为了实现上述目标，本发明采用如下技术方案：

基于局部加权偏最小二乘的计量设备运行性能预测分析方法，包括以下步骤：

步骤1：获取待预测计量设备的历史运行数据集并预处理数据集，将数据集划分为训练集与测试集，训练集用于训练模型，测试集用于测试所得模型的预测精度；

步骤2：采用K-Means聚类算法将训练集聚类成若干个子训练集，并计算每个子训练集的质心；

步骤3：将测试集与每个子训练集结合，利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模，并得到每个子模型下测试集对应的采集成功率预测值；

步骤4：根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权，集成得到最终的采集成功率预测值，结合测试集中真实的采集成功率数据，评价模型的预测精度和性能；

步骤5：实时获取一组新的运行数据，将运行数据与每个子训练集结合，利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模，并得到每个子模型下运行数据对应的采集成功率预测值，再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值，实现计量设备运行性能预测分析。

本发明进一步包括以下优选方案：

优选地，步骤1中，所述计量设备历史运行数据集为：待预测计量设备历史采集成功率随气候因素变化的数据集；

所述数据集包括待预测计量设备的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。

优选地，所述数据集中，每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量，每日采集成功率处理为去除百分号后的采集不成功率100*(100％-y)后作为因变量，然后将数据集按照7:3的比例划分得到训练集与测试集。

优选地，步骤2中，设置聚类个数k的取值范围为[1,10]，采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k，将其聚类成k个子训练集。

优选地，步骤2中，子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值，r＝1,2,…,k，k为子训练集数量。

优选地，所述局部加权偏最小二乘建模算法中，假设某个子训练集中自变量的矩阵为X∈R^N*M，因变量矩阵为Y∈R^N*L，子训练集的第n个自变量输入和因变量输出分别表示为：

x_n＝[x_n1,x_n2,…,x_nM]^T (1)

y_n＝[y_n1,y_n2,…,y_nL]^T (2)

式中：N代表输入和输出样本数，即子训练集中的样本数，M代表子模型输入变量的维度，L代表子模型输出变量的维度；

当需要对测试集中的第q个自变量输入x_q对应的因变量输出y_q进行预测时；

首先要计算测试集中第q个自变量输入x_q和子训练集中的第n个自变量输入x_n(n＝0,1,…,N)之间的相似性；

然后根据相似性的大小确定测试集中第q个自变量输入x_q中各个自变量的权重值，最后进行输出预测值。

优选地，步骤3具体包括以下步骤：

1)确定自变量中的主成分个数K，设置初始值K＝1；

2)计算相似性矩阵，确定相似性样本w_n：

Ω＝diag{w₁,w₂,…,w_N} (3)

式中：diag(·)代表取对角矩阵；

3)数据预处理，分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理，分别计算X_k，Y_k和x_q,k。

式中，I_N∈R^N为全为1的列向量；

4)令测试集第q个因变量输出

即子训练集下对应的测试集第q个自变量对应的原始因变量预测值；

5)计算子训练集X的第k个主成分：

t_k＝X_kw_k (11)

式中，w_k是

的最大特征值对应的特征向量；

w_k的计算方式为：

6)计算子训练集X的第k个负载向量p_k和回归系数向量q_k：

7)计算测试集中第q个自变量输入x_q的第k个主成分t_q,k：

8)令测试集的第q个因变量输出为y_q＝y_q+t_q,kq_k，即为子训练集建模之后将测试集中的第q个自变量输入x_q带入计算得到测试集中的第q个因变量的预测输出值；

9)若k＝K，则结束计算，否则令：

x_q,k+1＝x_q,k-t_q,kp_k (18)

10)令k＝k+1，并转到步骤5)。

优选地，步骤2)中，基于欧式距离确定相似性样本w_n，具体为：

优选地，步骤4所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权，集成得到最终的采集成功率预测值，具体包括以下步骤：

步骤4.1：计算测试集中第q组自变量输入x_q与子训练集r的质心x_r,z之间的欧式距离，r＝1,2,..,k,k表示子训练集数量；

欧式距离计算公式为；

步骤4.2：基于测试集中的自变量输入x_q与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重，对各个子模型的预测结果加权计算得出最终的预测结果。

优选地，步骤4.2所述权重计算公式为：

其中，p(x_r,x_q)表示测试集中第q个自变量输入x_q代入各个子模型计算预测值y_q时，各个子模型根据欧式距离计算出的该子模型预测结果对应的权重；

d_r(x_r,z,x_q)表示测试集中第q个自变量输入x_q与第r个子训练集的质心之间的距离；

表示测试集中第q个自变量输入x_q与所有子训练集质心的距离之和。

优选地，步骤4.2中，对各个子模型的预测结果加权计算得出最终的预测结果为：

其中，y_r,q为测试集中第q个自变量输入x_q带入子训练集r对应子模型计算出的子模型预测值；k表示子训练集数量；Y_q为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。

本申请所达到的有益效果：

本发明针对气候因素下的计量设备运行性能的阶段特性，采用K-Means聚类对数据集进行处理，针对气候因素下的计量设备运行性能的非线性、即时性，采用局部加权偏最小二乘法进行建模，算法具有较高的预测精度，可以有效应用于气候因素下的计量设备运行性能预测分析中。

1、本发明采用局部加权偏最小二乘法(LWPLS)作为基本建模算法，能够针对电力环境下的非线性问题进行分析。

2、本发明采用K-Means聚类建模分析再集成计算的方法，能够针对电力环境下的具有阶段特性的数据进行更好的预测分析。

3、采用K-Means聚类算法结合局部加权偏最小二乘法，有效地提高地模型的预测精度。

附图说明

图1为本发明基于局部加权偏最小二乘的计量设备运行性能预测分析方法流程图；

图2为测试集采用基于K-Means聚类的LWPLS建模的预测；

图3为K-Means聚类的wcss图；

图4为实施例中采用PLS建模的预测结果图；

图5为本发明实施例中采用基于K-Means聚类的LWPLS建模的预测结果图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1和2所示，本发明的基于局部加权偏最小二乘的计量设备运行性能预测分析方法，包括以下步骤：

具体实施时，所述计量设备历史运行数据集为：待预测计量设备历史采集成功率随气候因素变化的数据集；

所述数据集包括某台区下的某个集中器(即待预测计量设备)的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。

对数据集进行预处理如下，将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量，每日采集成功率处理为去除百分号后的采集不成功率100*(100％-y)后作为因变量，然后将数据集按照7:3的比例划分得到训练集与测试集。

步骤2：采用K-Means聚类算法将训练集聚类成k个子训练集，同时确定每个子训练集的质心；

具体实施时，子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值，r＝1,2,…,k。

设置聚类个数k的取值范围为[1,10]，采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k。

因为超过三维的数据集无法可视化聚类结果，因此利用簇内平方和(WCSS，Within-Cluster Sum of Squares)将K-means聚类结果的性能量化，对于一种聚类成k个簇的聚类策略，所有簇内的WCSS越低，代表簇内成员越紧密，WCSS越高，代表簇内结构越松散，WCSS必定会随着聚类个数k的增加而降低，另外结合肘部法则(Elbow)的原理，对于有一定区分度的数据，在达到某个k的临界点时簇内平方和(WCSS)会得到极大改善，之后缓慢下降，这个临界点k就可以考虑为聚类性能较好的点，将上述方法应用到本发明训练集的K-means聚类过程中，确定出该训练集的最佳聚类个数为3。

其中WCSS就是简单计算一下簇内距离，Elbow是一种主观的判断方法，由图3可以直接看出最佳聚类个数为3。

具体实施时，计算预测值的过程就是建模过程，建模只是它的一个概念表述，同时局部加权偏最小二乘法是一种即时性建模算法，会实时考虑新到数据对模型的影响，因此不存在一个固定不变的模型公式。

建模过程即为将自变量输入带入算法中计算出对应因变量输出的过程，分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值，也即建模成功。

按照以下局部加权偏最小二乘建模算法的原理对每个子训练集进行建模：

假设某个子训练集中自变量的矩阵为X∈R^N*M，因变量矩阵为Y∈R^N*L，子训练集的第n个自变量输入和因变量输出分别表示为：

x_n＝[x_n1,x_n2,…,x_nM]^T (1)

y_n＝[y_n1,y_n2,…,y_nL]^T (2)

式中：N代表输入和输出样本数，即子训练集中的样本数，M代表子模型输入变量的维度(本发明中为数据集自变量维度5)，L代表子模型输出变量的维度(本发明中为数据集因变量维度1)。

当需要对测试集中的第q个自变量输入x_q(即最高温度、最低温度、平均温度、相对湿度和降水量，下同)对应的因变量输出y_q(即去除百分号的采集不成功率，下同)进行预测时；

然后根据相似性的大小确定测试集中第q个自变量输入x_q中各个自变量(即最高温度x_q1、最低温度x_q2、平均温度x_q3、相对湿度x_q4和降水量x_q5)的权重值，最后进行输出预测值。

子模型建模并用子模型给测试集进行预测得到测试集对应预测值，即LWPLS结合子训练集对测试集中的因变量输出进行预测的步骤如下所示：

1)确定主成分个数，假设自变量中的主成分个数为K，在LWPLS算法中的初始值通常设为K＝1；

2)计算相似性矩阵：

Ω＝diag{w₁,w₂,…,w_N} (3)

式中：diag(·)代表取对角矩阵；

相似性样本w_n的选择通常基于欧式距离，具体如下所示。

式中，I_N∈R^N为全为1的列向量。

4)令测试集第q个因变量输出

也即该子训练集下对应的测试集第q个自变量对应的原始因变量预测值；

5)计算子训练集X的第k个主成分：

t_k＝X_kw_k (11)

式中，w_k是

的最大特征值对应的特征向量，则w_k的计算方式如下所示：

6)计算子训练集X的第k个负载向量和回归系数向量：

7)计算测试集中第q个自变量输入x_q的第k个主成分：

9)若k＝K，则结束计算，否则令：

x_q,k+1＝x_q,k-t_q,kp_k (18)

10)令k＝k+1，并转到步骤5)。

本发明主成分个数为因变量个数，k取值范围为[1,5]。

步骤4：根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权，集成得到最终的采集成功率预测值，结合测试集中真实的采集成功率数据，计算出可决系数r²和均方根误差RMSE，用于评价模型的预测精度和性能；

所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权，集成得到最终的采集成功率预测值，具体包括以下步骤：

步骤4.1：计算测试集中第q组自变量输入x_q与子训练集r的质心x_r,z之间的欧式距离，r＝1,2,..,k,欧式距离计算公式为；

x_q即一组最高温度x_q1、最低温度x_q2、平均温度x_q3、相对湿度x_q4和降水量x_q5。

所述权重计算公式为：

步骤4.2中，对各个子模型的预测结果加权计算得出最终的预测结果为：

经过步骤4结合测试集中真实的采集成功率数据，计算出可决系数r²和均方根误差RMSE，可知采用步骤2和3K-Means+LWPLS方法的模型的预测精度和性能较PLS方案有显著提高；

图2是本发明步骤1-4形成的测试集基于K-Means聚类的LWPLS建模的预测流程图。

步骤5：实时获取一组新的运行数据(每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量)，将运行数据与每个子训练集结合，利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模，并得到每个子模型下运行数据对应的采集成功率预测值，再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值，实现计量设备运行性能预测分析。

实施例验证如下：

所用数据集为近三年内南京市某台区的计量设备(集中器)采集成功率随气候因素变化的数据集，自变量为每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量，用采集不成功率经过去百分号处理后(100*(1-y))作为因变量。

首先，采用原始的PLS建模算法对数据集进行分析，分析结果如图4所示，从图4中可以分析出，PLS建模算法无法对气候因素下的计量设备采集成功率进行很好的预测分析，因此本发明提出基于局部加权偏最小二乘的计量设备运行性能预测分析方法，本发明具体实施时，将原始数据集按照7:3的比例划分为训练集、测试集；采用Elbow方法确定该训练集适合聚类的个数k，由图3可知，最佳聚类个数为k＝3；采用K-Means聚类算法将训练集划分为3个子训练集继而进行性能预测，预测结果如图5所示。从图5中可以分析出，采用K-Means聚类和局部加权偏最小二乘结合的方法，可以较好地对气候因素影响下地计量设备采集成功率进行预测分析。

对比PLS和本发明K-Means+LWPLS两种建模方案的建模效果，其中采用PLS建模的预测结果如图4所示，两种建模方案的建模效果如表1所示。

表1

建模方法	r<sup>2</sup>	RMSE	MAE
				PLS	0.35153	1.18328	0.96144
K-Means+LWPLS	0.52648	1.01114	0.84207

由表1可知，K-Means+LWPLS方案的可决系数r²较PLS方案的可决系数r²显著提高，K-Means+LWPLS方案的均方根误差RMSE较PLS方案的RMSE显著降低，K-Means+LWPLS方案的建模效果较PLS方案的建模效果有明显改善。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。