CN114970698A

CN114970698A - 一种基于改进lwpls的计量设备运行性能预测方法

Info

Publication number: CN114970698A
Application number: CN202210534974.2A
Authority: CN
Inventors: 胡居荣; 李明吉; 曹宁; 鹿浩
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-30
Anticipated expiration: 2042-05-17
Also published as: CN114970698B

Abstract

本发明公开了一种基于改进LWPLS的计量设备运行性能预测方法，包括：获取并预处理历史运行指标数据集和历史气候数据集，划分为训练集与测试集；采用K‑means聚类训练集，得到子训练集，计算出每个子训练集的质心；对局部加权偏最小二乘建模算法进行改进，采用改进后的LWPLS对每个子训练集进行建模，得到子模型；将测试集中的气候变量带入子模型，对各个子模型的预测结果进行加权，集成计算出测试样本数据点对应的采集失败率预测值，获取到计量设备运行性能预测结果。本发明采用K‑means聚类对数据集进行处理，针对气候因素下的计量设备运行性能的非线性、即时性，采用改进后的LWPLS进行建模，具有较高的预测精度，可以应用于气候因素下的计量设备运行性能预测分析中。

Description

一种基于改进LWPLS的计量设备运行性能预测方法

技术领域

本发明属于现代电力环境下的软测量建模技术领域，具体涉及一种基于改进LWPLS的计量设备运行性能预测方法。

背景技术

现代电力系统下，计量设备数据获取较为容易，因此目前更多的是在数据集支撑下来建立分析模型，通常被数据分析人员使用的建模算法比如人工神经网络法(ANN)、支持向量机法(SVR)、偏最小二乘法(PLSR)，各有各的优缺点。而电力系统下获取到的计量设备数据具有较强的即时性，传统的利用全局建模方法如偏最小二乘回归(PLSR)来建立分析模型难以体现数据的局部特征，建模效果较差，因此应该选用局部建模方法。局部加权偏最小二乘(LWPLS)作为一种基于数据驱动的局部建模算法，通过相似度对建模样本数据进行加权处理，可以有效地处理电力系统中计量设备数据的非线性和即时性问题。

传统的局部加权偏最小二乘法(LWPLS)存在以下问题：(1)对于大样本训练集，计算复杂度高，速度慢。(2)算法内部计算相似性采用欧式距离，相似性挖掘的不够。(3)算法内部手动设置主成分个数K和带宽

费时费力。电力环境下面临的大多是非线性、含阶段特性的问题，直接利用传统的LWPLS不能保证模型的预测精度和稳定性。因此需要结合电力环境下的实际情况，选择合适的建模及优化算法，提高模型处理非线性问题的能力和改善其动态特性。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于改进LWPLS的计量设备运行性能预测方法，可实现非线性和即时性预测，并且有效提高预测准确度。

技术方案：为实现上述目的，本发明提供一种基于改进LWPLS的计量设备运行性能预测方法，包括如下步骤：

S1：获取并预处理计量设备的历史运行指标数据集和计量设备所处台区下的历史气候数据集；

S2：将步骤S1中预处理后的数据集划分为训练集与测试集；

S3：采用K-means聚类训练集，得到k个子训练集，计算出每个子训练集的质心；

S4：利用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘建模算法(LWPLS)进行改进，采用改进后的LWPLS对每个子训练集进行建模，得到k个子模型；

S5：将测试集中的气候变量带入子模型，根据测试集中的每个样本数据点到各个子训练集质心的距离，基于质心邻域的权值分配策略，对各个子模型的预测结果进行加权，集成计算出测试样本数据点对应的采集失败率预测值，获取到计量设备运行性能预测结果。

进一步地，所述步骤S1中历史运行指标数据集包括计量设备的每日采集失败率，历史气候数据集包括计量设备所处台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。

进一步地，所述步骤S1中预处理的方法为：将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量；将每日采集成功率处理之后(即变为去除百分号后的采集失败率100*(100％-y))作为因变量。

进一步地，所述步骤S2中训练集与测试集的划分比例为7:3。

进一步地，所述步骤S4中利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为：

将现有LWPLS原理中相似性矩阵Ω计算中的欧氏距离d_n替换为双尺度距离d_t-s，双尺度距离的定义如下所示：

d_t-s(A,B)＝c_EuE_u(A,B)+c_CdC_d(A,B)*r (1)

式中，d_t-s(A,B)表示样本点A与样本点B的双尺度距离(two-scale distance)；c_Eu和c_Cd分别表示欧氏距离与余弦距离的权重，针对本文数据集特征，两种距离度量均为有效的度量方式，故取c_Eu＝c_Cd＝0.5，r为比例系数；

由于余弦距离的值域为[0,2],欧氏距离的值域为[0,1]，为避免两个距离度量取值分布差异致使其对双尺度距离的影响失衡，因此将比例系数r定义为：

式中，E_u和C_d分别表示样本数据的欧式距离矩阵与余弦距离矩阵。

进一步地，所述步骤S4中采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为：

网格搜索是将待寻优参数组合

的取值空间范围按照长宽相同的原则分为一个个网格，每个网格的网格点就是对应要遍历寻优的参数组合点，将每一个网格点带入各个子训练集对应的子模型中，计算网格点带入时的子模型均方误差(采用交叉验证得到)，对比每一个网格点下的子模型均方误差，最终每一个子训练集可以得到一组最优参数组合

使得该子训练集对应的子模型的预测准确度最高；

采用f-fold交叉验证法用来进行模型评估，该方法是将子训练集再分为f等份子集，其中1份作为该子训练集下的测试集，另外f-1份作为该子训练集下的训练集，经实验验证，当f＝n时，实验效果最佳，所以在将某一参数组合

带入到子模型中计算子模型均方误差时，按照上述f-fold交叉验证的思路，一共需要迭代n次，每次取该子模型对应子训练集下的1份子集作为测试集，其余n-1份作为该子训练集下的训练集，训练子模型得到这一参数组合

下的子模型的第一个均方误差，迭代n次之后，得到这一参数组合

下的子模型的n个均方误差，对这n个均方误差取平均后，作为这一参数组合

下的子模型的最终均方误差。

进一步地，所述步骤S4中采用改进后的LWPLS对每个子训练集进行建模的过程为：将自变量输入带入算法中计算出对应因变量输出的过程，分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值，也即建模成功。

进一步地，所述步骤S5中数采集失败率预测值的获取过程为：

当测试集中的某个样本据归于某个子训练集的质心邻域内时，即x_q∈Θ_i，1≤i≤k)，则认为该子训练集i百分百包含测试该样本数据x_q，称之为内部点，直接将该测试样本数据带入该子训练集对应的子模型中进行预测，结果作为该内部点的最终预测值，而针对于归于某一子训练集但落在该子训练集的质心邻域边界之外的测试样本点，即x_q∈SD_i且

称之为边界点；

当测试数据样本点为边界点时，根据贝叶斯定理对边界点周围的子训练集对应的子模型进行加权分配，公式如下所示：

其中，p(SD_m)表示先验概率，p(x_q|SD_m)表示第m个子训练集对应的子模型能准确预测x_q的概率，m维向量u_m是第m个子训练集中各个维度的均值，矩阵∑_m是其协方差矩阵，|∑_m|是其对应的行列式；

最终对各个子模型进行加权之后得到的x_q对应的最终预测值为y_q：

其中，y_q表示气候样本点x_q对应的计量设备采集失败率集成预测值，p(x_q|SD_m)表示第m个子训练集对应的子模型能准确预测x_q的概率，y_m,q表示第m个子训练集对应的子模型对气候样本点x_q对应的计量设备采集失败率的预测值。

进一步地，所述步骤S5中结合测试集中真实采集失败率数据，计算出可决系数r²和均方根误差RMSE，用于评价改进LWPLS算法的预测精度和性能，公式如下所示：

其中，I为查询样本的数目，

y_i分别为查询样本的预测值、平均值和真实值。

本发明针对气候因素下的计量设备运行性能的阶段特性，采用K-means聚类对数据集进行处理，针对气候因素下的计量设备运行性能的非线性、即时性，采用改进后的LWPLS进行建模，算法具有较高的预测精度，可以有效应用于气候因素下的计量设备运行性能预测分析中。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明采用局部加权偏最小二乘法(LWPLS)作为基本建模算法，其作为一种基于数据驱动的局部建模算法，将电力系统的非线性样本整体数据划分为一个个局部呈现线性的样本数据段，再通过相似度对样本数据进行加权处理建模，从而有效地解决了电力系统中计量设备数据的非线性和即时性问题。

2、本发明采用K-means聚类建模分析再集成计算的方法，能够针对电力环境下的具有阶段特性的数据进行更好的预测分析。

3、本发明采用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘法进行改进，能够有效提升模型精度。

4、本发明针对K-means聚类的原理特点，提出基于质心邻域的子模型权值分配策略，集成思想更加合理，集成后的模型预测精度更高。

附图说明

图1为本发明方法流程图；

图2为本实施例中采集失败率的真实值和K-MLWPLS建模的预测值分布图；

图3为本实施例中采集失败率的真实值和K-MLWPLS建模的预测值时序图；

图4为本实施例中采集失败率的真实值和PLS建模的预测值时序图；

图5为本实施例中采集失败率的真实值和LWPLS建模的预测值时序图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于改进LWPLS的计量设备运行性能预测方法，如图1所示，包括如下步骤：

计量设备历史运行指标数据集为：待预测地区计量设备历史采集成功率随气候因素变化的数据集；

历史气候数据集包含的是某台区下的某个集中器的近三年内的每日采集成功率以及近三年内该台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量；

预处理的方法为：将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量；将每日采集成功率处理之后(即变为去除百分号后的采集失败率100*(100％-y))作为因变量。

S2：将步骤S1中预处理后的数据集按照7:3的比例划分为训练集与测试集。

S3：采用K-means聚类训练集，得到k个子训练集，计算出每个子训练集的质心，质心的定义为某个子训练集中所有样本数据点各个维度的算术平均值。

S4：利用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘建模算法(LWPLS)进行改进，采用改进后的LWPLS对每个子训练集进行建模，得到k个子模型：

利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为：

使用双尺度相似性度量对局部加权偏最小二乘法进行优化，传统的局部加权偏最小二乘法(LWPLS)内部采用欧式距离来进行相似性度量，欧氏距离计算的是样本点之间的绝对距离，余弦距离计算的是样本点之间的方向差异，为了充分挖掘数据集中的样本相似性信息，利用欧氏距离结合余弦距离的双尺度相似性度量来优化局部加权偏最小二乘法。

d_t-s(A,B)＝c_EuE_u(A,B)+c_CdC_d(A,B)*r (1)

采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为：

传统的局部加权偏最小二乘法(LWPLS)，需要在取值范围内对主成分个数K和带宽

进行手动赋值，难以获得最优的参数对

使得模型的预测精度最高。本发明采用网格搜索和交叉验证对这一问题进行优化。

网格搜索是将待寻优参数组合

使得该子训练集对应的子模型的预测准确度最高；

带入到子模型中计算子模型均方误差时，按照上述f-fold交叉验证的思路，一共需要迭代10次，每次取该子模型对应子训练集下的1份子集作为测试集，其余9份作为该子训练集下的训练集，训练子模型得到这一参数组合

下的子模型的第一个均方误差，迭代10次之后，得到这一参数组合

下的子模型的10个均方误差，对这10个均方误差取平均后，作为这一参数组合

下的子模型的最终均方误差。

采用改进后的LWPLS对每个子训练集进行建模的过程为：将自变量输入带入算法中计算出对应因变量输出的过程，分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值，也即建模成功。

S5：将测试集中的气候变量带入子模型，根据测试集中的每个样本数据点到各个子训练集质心的距离，基于质心邻域的权值分配策略，对各个子模型的预测结果进行加权，集成计算出测试样本数据点对应的采集失败率预测值，获取到计量设备运行性能预测结果，结合测试集中真实采集失败率数据，计算出可决系数r²和均方根误差RMSE，用于评价改进LWPLS算法的预测精度和性能：

数采集失败率预测值的获取过程为：

称之为边界点；

结合测试集中真实采集失败率数据，计算出可决系数r²和均方根误差RMSE，用于评价改进LWPLS算法的预测精度和性能，公式如下所示：

其中，I为查询样本的数目，

y_i分别为查询样本的预测值、平均值和真实值。

本发明针对气候因素下的计量设备运行性能的阶段特性，采用K-means聚类对数据集进行处理，针对气候因素下的计量设备运行性能的非线性、即时性，采用改进LWPLS进行建模，最后基于质心邻域的权值分配策略进行集成运算，算法具有较高的预测精度，可以有效应用于气候因素下的计量设备运行性能预测分析中。

为了验证本发明方案的实际效果，本实施例将上述方案进行实例应用，具体如下：

所用数据集为近三年内南京市某台区的计量设备(集中器)采集成功率随气候因素变化的数据集，自变量为每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量，用采集失败率经过去百分号处理后(100*(1-y))作为因变量。

首先，采用原始的PLS建模算法对数据集进行分析，分析结果如图4所示，从图4中可以分析出，PLS建模算法无法对气候因素下的计量设备采集成功率进行很好的预测分析，再采用传统的局部加权偏最小二乘法对数据集进行分析，分析结果如图5所示，从图5中可以看出LWPLS的建模效果明显优于PLS，但是在时序点800之后出现较大偏差。

因此本发明提出的基于改进LWPLS的计量设备运行性能预测方法(K-MLWPLS)，在具体实施时，将原始数据集按照7:3的比例划分为训练集、测试集；采用K-means聚类将该训练集聚类成k个子训练集，再利用改进后的LWPLS进行建模(K-MLWPLS)，之后再利用基于质心邻域的权值分配策略进行集成运算，最终预测结果如图2、图3所示。从图2、图3中可以分析出，采用K-means聚类和局部加权偏最小二乘结合的方法，可以较好地对气候因素影响下地计量设备采集失败率进行预测分析，并且模型预测效果明显由于建模算法PLS和LWPLS。

对比PLS、LWPLS和本发明K-MLWPLS三种建模方案的建模效果，三种建模算法的建模效果如表1所示。

表1

建模方法	可决系数r<sup>2</sup>	均方根误差RMSE
			PLS	0.30302	0.20308
LWPLS	0.38606	0.15939
			K-MLWPLS	0.43363	0.13389

由表1可知，K-MLWPLS方案的可决系数r²较PLS、LWPLS方案的可决系数r²显著提高，K-MLWPLS方案的均方根误差RMSE较PLS、LWPLS方案的RMSE显著降低，K-MLWPLS方案的建模效果较PLS、LWPLS方案的建模效果有明显改善。

Claims

1.一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，包括如下步骤：

S2：将步骤S1中预处理后的数据集划分为训练集与测试集；

2.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S1中历史运行指标数据集包括计量设备的每日采集失败率，历史气候数据集包括计量设备所处台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。

3.根据权利要求2所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S1中预处理的方法为：将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量；将每日采集成功率处理之后作为因变量。

4.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S2中训练集与测试集的划分比例为7∶3。

5.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S4中利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为：

d_t-s(A，B)＝c_EuE_u(A，B)+c_CdC_d(A，B)*r (1)

式中，d_t-s(A，B)表示样本点A与样本点B的双尺度距离；c_Eu和c_Cd分别表示欧氏距离与余弦距离的权重，r为比例系数；

将比例系数r定义为：

6.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S4中采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为：

网格搜索是将待寻优参数组合

的取值空间范围按照长宽相同的原则分为一个个网格，每个网格的网格点就是对应要遍历寻优的参数组合点，将每一个网格点带入各个子训练集对应的子模型中，计算网格点带入时的子模型均方误差，对比每一个网格点下的子模型均方误差，最终每一个子训练集可以得到一组最优参数组合

下的子模型的最终均方误差。

7.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S4中采用改进后的LWPLS对每个子训练集进行建模的过程为：将自变量输入带入算法中计算出对应因变量输出的过程，分别将子训练集、测试集带入到模型公式中计算即可得到测试集对应的采集成功率预测值，也即建模成功。

8.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S5中数采集失败率预测值的获取过程为：

称之为边界点；

其中，y_q表示气候样本点x_q对应的计量设备采集失败率集成预测值，p(x_q|SD_m)表示第m个子训练集对应的子模型能准确预测x_q的概率，y_m，q表示第m个子训练集对应的子模型对气候样本点x_q对应的计量设备采集失败率的预测值。

9.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法，其特征在于，所述步骤S5中结合测试集中真实采集失败率数据，计算出可决系数r²和均方根误差RMSE，用于评价改进LWPLS算法的预测精度和性能，公式如下所示：

其中，I为查询样本的数目，

y_i分别为查询样本的预测值、平均值和真实值。