CN114970698A - 一种基于改进lwpls的计量设备运行性能预测方法 - Google Patents

一种基于改进lwpls的计量设备运行性能预测方法 Download PDF

Info

Publication number
CN114970698A
CN114970698A CN202210534974.2A CN202210534974A CN114970698A CN 114970698 A CN114970698 A CN 114970698A CN 202210534974 A CN202210534974 A CN 202210534974A CN 114970698 A CN114970698 A CN 114970698A
Authority
CN
China
Prior art keywords
sub
training set
lwpls
improved
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210534974.2A
Other languages
English (en)
Other versions
CN114970698B (zh
Inventor
胡居荣
李明吉
曹宁
鹿浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210534974.2A priority Critical patent/CN114970698B/zh
Publication of CN114970698A publication Critical patent/CN114970698A/zh
Application granted granted Critical
Publication of CN114970698B publication Critical patent/CN114970698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进LWPLS的计量设备运行性能预测方法,包括:获取并预处理历史运行指标数据集和历史气候数据集,划分为训练集与测试集;采用K‑means聚类训练集,得到子训练集,计算出每个子训练集的质心;对局部加权偏最小二乘建模算法进行改进,采用改进后的LWPLS对每个子训练集进行建模,得到子模型;将测试集中的气候变量带入子模型,对各个子模型的预测结果进行加权,集成计算出测试样本数据点对应的采集失败率预测值,获取到计量设备运行性能预测结果。本发明采用K‑means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用改进后的LWPLS进行建模,具有较高的预测精度,可以应用于气候因素下的计量设备运行性能预测分析中。

Description

一种基于改进LWPLS的计量设备运行性能预测方法
技术领域
本发明属于现代电力环境下的软测量建模技术领域,具体涉及一种基于改进LWPLS的计量设备运行性能预测方法。
背景技术
现代电力系统下,计量设备数据获取较为容易,因此目前更多的是在数据集支撑下来建立分析模型,通常被数据分析人员使用的建模算法比如人工神经网络法(ANN)、支持向量机法(SVR)、偏最小二乘法(PLSR),各有各的优缺点。而电力系统下获取到的计量设备数据具有较强的即时性,传统的利用全局建模方法如偏最小二乘回归(PLSR)来建立分析模型难以体现数据的局部特征,建模效果较差,因此应该选用局部建模方法。局部加权偏最小二乘(LWPLS)作为一种基于数据驱动的局部建模算法,通过相似度对建模样本数据进行加权处理,可以有效地处理电力系统中计量设备数据的非线性和即时性问题。
传统的局部加权偏最小二乘法(LWPLS)存在以下问题:(1)对于大样本训练集,计算复杂度高,速度慢。(2)算法内部计算相似性采用欧式距离,相似性挖掘的不够。(3)算法内部手动设置主成分个数K和带宽
Figure BDA0003647435300000011
费时费力。电力环境下面临的大多是非线性、含阶段特性的问题,直接利用传统的LWPLS不能保证模型的预测精度和稳定性。因此需要结合电力环境下的实际情况,选择合适的建模及优化算法,提高模型处理非线性问题的能力和改善其动态特性。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种基于改进LWPLS的计量设备运行性能预测方法,可实现非线性和即时性预测,并且有效提高预测准确度。
技术方案:为实现上述目的,本发明提供一种基于改进LWPLS的计量设备运行性能预测方法,包括如下步骤:
S1:获取并预处理计量设备的历史运行指标数据集和计量设备所处台区下的历史气候数据集;
S2:将步骤S1中预处理后的数据集划分为训练集与测试集;
S3:采用K-means聚类训练集,得到k个子训练集,计算出每个子训练集的质心;
S4:利用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘建模算法(LWPLS)进行改进,采用改进后的LWPLS对每个子训练集进行建模,得到k个子模型;
S5:将测试集中的气候变量带入子模型,根据测试集中的每个样本数据点到各个子训练集质心的距离,基于质心邻域的权值分配策略,对各个子模型的预测结果进行加权,集成计算出测试样本数据点对应的采集失败率预测值,获取到计量设备运行性能预测结果。
进一步地,所述步骤S1中历史运行指标数据集包括计量设备的每日采集失败率,历史气候数据集包括计量设备所处台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
进一步地,所述步骤S1中预处理的方法为:将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量;将每日采集成功率处理之后(即变为去除百分号后的采集失败率100*(100%-y))作为因变量。
进一步地,所述步骤S2中训练集与测试集的划分比例为7:3。
进一步地,所述步骤S4中利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为:
将现有LWPLS原理中相似性矩阵Ω计算中的欧氏距离dn替换为双尺度距离dt-s,双尺度距离的定义如下所示:
dt-s(A,B)=cEuEu(A,B)+cCdCd(A,B)*r (1)
式中,dt-s(A,B)表示样本点A与样本点B的双尺度距离(two-scale distance);cEu和cCd分别表示欧氏距离与余弦距离的权重,针对本文数据集特征,两种距离度量均为有效的度量方式,故取cEu=cCd=0.5,r为比例系数;
由于余弦距离的值域为[0,2],欧氏距离的值域为[0,1],为避免两个距离度量取值分布差异致使其对双尺度距离的影响失衡,因此将比例系数r定义为:
Figure BDA0003647435300000021
式中,Eu和Cd分别表示样本数据的欧式距离矩阵与余弦距离矩阵。
进一步地,所述步骤S4中采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为:
网格搜索是将待寻优参数组合
Figure BDA0003647435300000022
的取值空间范围按照长宽相同的原则分为一个个网格,每个网格的网格点就是对应要遍历寻优的参数组合点,将每一个网格点带入各个子训练集对应的子模型中,计算网格点带入时的子模型均方误差(采用交叉验证得到),对比每一个网格点下的子模型均方误差,最终每一个子训练集可以得到一组最优参数组合
Figure BDA0003647435300000023
使得该子训练集对应的子模型的预测准确度最高;
采用f-fold交叉验证法用来进行模型评估,该方法是将子训练集再分为f等份子集,其中1份作为该子训练集下的测试集,另外f-1份作为该子训练集下的训练集,经实验验证,当f=n时,实验效果最佳,所以在将某一参数组合
Figure BDA0003647435300000036
带入到子模型中计算子模型均方误差时,按照上述f-fold交叉验证的思路,一共需要迭代n次,每次取该子模型对应子训练集下的1份子集作为测试集,其余n-1份作为该子训练集下的训练集,训练子模型得到这一参数组合
Figure BDA0003647435300000037
下的子模型的第一个均方误差,迭代n次之后,得到这一参数组合
Figure BDA0003647435300000038
下的子模型的n个均方误差,对这n个均方误差取平均后,作为这一参数组合
Figure BDA0003647435300000039
下的子模型的最终均方误差。
进一步地,所述步骤S4中采用改进后的LWPLS对每个子训练集进行建模的过程为:将自变量输入带入算法中计算出对应因变量输出的过程,分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值,也即建模成功。
进一步地,所述步骤S5中数采集失败率预测值的获取过程为:
当测试集中的某个样本据归于某个子训练集的质心邻域内时,即xq∈Θi,1≤i≤k),则认为该子训练集i百分百包含测试该样本数据xq,称之为内部点,直接将该测试样本数据带入该子训练集对应的子模型中进行预测,结果作为该内部点的最终预测值,而针对于归于某一子训练集但落在该子训练集的质心邻域边界之外的测试样本点,即xq∈SDi
Figure BDA0003647435300000031
称之为边界点;
当测试数据样本点为边界点时,根据贝叶斯定理对边界点周围的子训练集对应的子模型进行加权分配,公式如下所示:
Figure BDA0003647435300000032
Figure BDA0003647435300000033
Figure BDA0003647435300000034
其中,p(SDm)表示先验概率,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,m维向量um是第m个子训练集中各个维度的均值,矩阵∑m是其协方差矩阵,|∑m|是其对应的行列式;
最终对各个子模型进行加权之后得到的xq对应的最终预测值为yq
Figure BDA0003647435300000035
其中,yq表示气候样本点xq对应的计量设备采集失败率集成预测值,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,ym,q表示第m个子训练集对应的子模型对气候样本点xq对应的计量设备采集失败率的预测值。
进一步地,所述步骤S5中结合测试集中真实采集失败率数据,计算出可决系数r2和均方根误差RMSE,用于评价改进LWPLS算法的预测精度和性能,公式如下所示:
Figure BDA0003647435300000041
Figure BDA0003647435300000042
其中,I为查询样本的数目,
Figure BDA0003647435300000043
yi分别为查询样本的预测值、平均值和真实值。
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用改进后的LWPLS进行建模,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明采用局部加权偏最小二乘法(LWPLS)作为基本建模算法,其作为一种基于数据驱动的局部建模算法,将电力系统的非线性样本整体数据划分为一个个局部呈现线性的样本数据段,再通过相似度对样本数据进行加权处理建模,从而有效地解决了电力系统中计量设备数据的非线性和即时性问题。
2、本发明采用K-means聚类建模分析再集成计算的方法,能够针对电力环境下的具有阶段特性的数据进行更好的预测分析。
3、本发明采用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘法进行改进,能够有效提升模型精度。
4、本发明针对K-means聚类的原理特点,提出基于质心邻域的子模型权值分配策略,集成思想更加合理,集成后的模型预测精度更高。
附图说明
图1为本发明方法流程图;
图2为本实施例中采集失败率的真实值和K-MLWPLS建模的预测值分布图;
图3为本实施例中采集失败率的真实值和K-MLWPLS建模的预测值时序图;
图4为本实施例中采集失败率的真实值和PLS建模的预测值时序图;
图5为本实施例中采集失败率的真实值和LWPLS建模的预测值时序图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种基于改进LWPLS的计量设备运行性能预测方法,如图1所示,包括如下步骤:
S1:获取并预处理计量设备的历史运行指标数据集和计量设备所处台区下的历史气候数据集;
计量设备历史运行指标数据集为:待预测地区计量设备历史采集成功率随气候因素变化的数据集;
历史气候数据集包含的是某台区下的某个集中器的近三年内的每日采集成功率以及近三年内该台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量;
预处理的方法为:将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量;将每日采集成功率处理之后(即变为去除百分号后的采集失败率100*(100%-y))作为因变量。
S2:将步骤S1中预处理后的数据集按照7:3的比例划分为训练集与测试集。
S3:采用K-means聚类训练集,得到k个子训练集,计算出每个子训练集的质心,质心的定义为某个子训练集中所有样本数据点各个维度的算术平均值。
S4:利用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘建模算法(LWPLS)进行改进,采用改进后的LWPLS对每个子训练集进行建模,得到k个子模型:
利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为:
使用双尺度相似性度量对局部加权偏最小二乘法进行优化,传统的局部加权偏最小二乘法(LWPLS)内部采用欧式距离来进行相似性度量,欧氏距离计算的是样本点之间的绝对距离,余弦距离计算的是样本点之间的方向差异,为了充分挖掘数据集中的样本相似性信息,利用欧氏距离结合余弦距离的双尺度相似性度量来优化局部加权偏最小二乘法。
将现有LWPLS原理中相似性矩阵Ω计算中的欧氏距离dn替换为双尺度距离dt-s,双尺度距离的定义如下所示:
dt-s(A,B)=cEuEu(A,B)+cCdCd(A,B)*r (1)
式中,dt-s(A,B)表示样本点A与样本点B的双尺度距离(two-scale distance);cEu和cCd分别表示欧氏距离与余弦距离的权重,针对本文数据集特征,两种距离度量均为有效的度量方式,故取cEu=cCd=0.5,r为比例系数;
由于余弦距离的值域为[0,2],欧氏距离的值域为[0,1],为避免两个距离度量取值分布差异致使其对双尺度距离的影响失衡,因此将比例系数r定义为:
Figure BDA0003647435300000061
式中,Eu和Cd分别表示样本数据的欧式距离矩阵与余弦距离矩阵。
采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为:
传统的局部加权偏最小二乘法(LWPLS),需要在取值范围内对主成分个数K和带宽
Figure BDA0003647435300000062
进行手动赋值,难以获得最优的参数对
Figure BDA0003647435300000063
使得模型的预测精度最高。本发明采用网格搜索和交叉验证对这一问题进行优化。
网格搜索是将待寻优参数组合
Figure BDA0003647435300000064
的取值空间范围按照长宽相同的原则分为一个个网格,每个网格的网格点就是对应要遍历寻优的参数组合点,将每一个网格点带入各个子训练集对应的子模型中,计算网格点带入时的子模型均方误差(采用交叉验证得到),对比每一个网格点下的子模型均方误差,最终每一个子训练集可以得到一组最优参数组合
Figure BDA0003647435300000065
使得该子训练集对应的子模型的预测准确度最高;
采用f-fold交叉验证法用来进行模型评估,该方法是将子训练集再分为f等份子集,其中1份作为该子训练集下的测试集,另外f-1份作为该子训练集下的训练集,经实验验证,当f=n时,实验效果最佳,所以在将某一参数组合
Figure BDA0003647435300000066
带入到子模型中计算子模型均方误差时,按照上述f-fold交叉验证的思路,一共需要迭代10次,每次取该子模型对应子训练集下的1份子集作为测试集,其余9份作为该子训练集下的训练集,训练子模型得到这一参数组合
Figure BDA0003647435300000067
下的子模型的第一个均方误差,迭代10次之后,得到这一参数组合
Figure BDA0003647435300000068
下的子模型的10个均方误差,对这10个均方误差取平均后,作为这一参数组合
Figure BDA0003647435300000069
下的子模型的最终均方误差。
采用改进后的LWPLS对每个子训练集进行建模的过程为:将自变量输入带入算法中计算出对应因变量输出的过程,分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值,也即建模成功。
S5:将测试集中的气候变量带入子模型,根据测试集中的每个样本数据点到各个子训练集质心的距离,基于质心邻域的权值分配策略,对各个子模型的预测结果进行加权,集成计算出测试样本数据点对应的采集失败率预测值,获取到计量设备运行性能预测结果,结合测试集中真实采集失败率数据,计算出可决系数r2和均方根误差RMSE,用于评价改进LWPLS算法的预测精度和性能:
数采集失败率预测值的获取过程为:
当测试集中的某个样本据归于某个子训练集的质心邻域内时,即xq∈Θi,1≤i≤k),则认为该子训练集i百分百包含测试该样本数据xq,称之为内部点,直接将该测试样本数据带入该子训练集对应的子模型中进行预测,结果作为该内部点的最终预测值,而针对于归于某一子训练集但落在该子训练集的质心邻域边界之外的测试样本点,即xq∈SDi
Figure BDA0003647435300000071
称之为边界点;
当测试数据样本点为边界点时,根据贝叶斯定理对边界点周围的子训练集对应的子模型进行加权分配,公式如下所示:
Figure BDA0003647435300000072
Figure BDA0003647435300000073
Figure BDA0003647435300000074
其中,p(SDm)表示先验概率,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,m维向量um是第m个子训练集中各个维度的均值,矩阵∑m是其协方差矩阵,|∑m|是其对应的行列式;
最终对各个子模型进行加权之后得到的xq对应的最终预测值为yq
Figure BDA0003647435300000075
其中,yq表示气候样本点xq对应的计量设备采集失败率集成预测值,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,ym,q表示第m个子训练集对应的子模型对气候样本点xq对应的计量设备采集失败率的预测值。
结合测试集中真实采集失败率数据,计算出可决系数r2和均方根误差RMSE,用于评价改进LWPLS算法的预测精度和性能,公式如下所示:
Figure BDA0003647435300000076
Figure BDA0003647435300000077
其中,I为查询样本的数目,
Figure BDA0003647435300000078
yi分别为查询样本的预测值、平均值和真实值。
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用改进LWPLS进行建模,最后基于质心邻域的权值分配策略进行集成运算,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
为了验证本发明方案的实际效果,本实施例将上述方案进行实例应用,具体如下:
所用数据集为近三年内南京市某台区的计量设备(集中器)采集成功率随气候因素变化的数据集,自变量为每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量,用采集失败率经过去百分号处理后(100*(1-y))作为因变量。
首先,采用原始的PLS建模算法对数据集进行分析,分析结果如图4所示,从图4中可以分析出,PLS建模算法无法对气候因素下的计量设备采集成功率进行很好的预测分析,再采用传统的局部加权偏最小二乘法对数据集进行分析,分析结果如图5所示,从图5中可以看出LWPLS的建模效果明显优于PLS,但是在时序点800之后出现较大偏差。
因此本发明提出的基于改进LWPLS的计量设备运行性能预测方法(K-MLWPLS),在具体实施时,将原始数据集按照7:3的比例划分为训练集、测试集;采用K-means聚类将该训练集聚类成k个子训练集,再利用改进后的LWPLS进行建模(K-MLWPLS),之后再利用基于质心邻域的权值分配策略进行集成运算,最终预测结果如图2、图3所示。从图2、图3中可以分析出,采用K-means聚类和局部加权偏最小二乘结合的方法,可以较好地对气候因素影响下地计量设备采集失败率进行预测分析,并且模型预测效果明显由于建模算法PLS和LWPLS。
对比PLS、LWPLS和本发明K-MLWPLS三种建模方案的建模效果,三种建模算法的建模效果如表1所示。
表1
建模方法 可决系数r<sup>2</sup> 均方根误差RMSE
PLS 0.30302 0.20308
LWPLS 0.38606 0.15939
K-MLWPLS 0.43363 0.13389
由表1可知,K-MLWPLS方案的可决系数r2较PLS、LWPLS方案的可决系数r2显著提高,K-MLWPLS方案的均方根误差RMSE较PLS、LWPLS方案的RMSE显著降低,K-MLWPLS方案的建模效果较PLS、LWPLS方案的建模效果有明显改善。

Claims (9)

1.一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,包括如下步骤:
S1:获取并预处理计量设备的历史运行指标数据集和计量设备所处台区下的历史气候数据集;
S2:将步骤S1中预处理后的数据集划分为训练集与测试集;
S3:采用K-means聚类训练集,得到k个子训练集,计算出每个子训练集的质心;
S4:利用双尺度相似性度量、网格搜索和交叉验证对局部加权偏最小二乘建模算法(LWPLS)进行改进,采用改进后的LWPLS对每个子训练集进行建模,得到k个子模型;
S5:将测试集中的气候变量带入子模型,根据测试集中的每个样本数据点到各个子训练集质心的距离,基于质心邻域的权值分配策略,对各个子模型的预测结果进行加权,集成计算出测试样本数据点对应的采集失败率预测值,获取到计量设备运行性能预测结果。
2.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S1中历史运行指标数据集包括计量设备的每日采集失败率,历史气候数据集包括计量设备所处台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
3.根据权利要求2所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S1中预处理的方法为:将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量;将每日采集成功率处理之后作为因变量。
4.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S2中训练集与测试集的划分比例为7∶3。
5.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S4中利用双尺度相似性度量对局部加权偏最小二乘建模算法进行改进的方法为:
将现有LWPLS原理中相似性矩阵Ω计算中的欧氏距离dn替换为双尺度距离dt-s,双尺度距离的定义如下所示:
dt-s(A,B)=cEuEu(A,B)+cCdCd(A,B)*r (1)
式中,dt-s(A,B)表示样本点A与样本点B的双尺度距离;cEu和cCd分别表示欧氏距离与余弦距离的权重,r为比例系数;
将比例系数r定义为:
Figure FDA0003647435290000021
式中,Eu和Cd分别表示样本数据的欧式距离矩阵与余弦距离矩阵。
6.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S4中采用网格搜索和交叉验证对局部加权偏最小二乘建模算法进行改进的方法为:
网格搜索是将待寻优参数组合
Figure FDA0003647435290000028
的取值空间范围按照长宽相同的原则分为一个个网格,每个网格的网格点就是对应要遍历寻优的参数组合点,将每一个网格点带入各个子训练集对应的子模型中,计算网格点带入时的子模型均方误差,对比每一个网格点下的子模型均方误差,最终每一个子训练集可以得到一组最优参数组合
Figure FDA0003647435290000022
采用f-fold交叉验证法用来进行模型评估,该方法是将子训练集再分为f等份子集,其中1份作为该子训练集下的测试集,另外f-1份作为该子训练集下的训练集,经实验验证,当f=n时,实验效果最佳,所以在将某一参数组合
Figure FDA0003647435290000023
带入到子模型中计算子模型均方误差时,按照上述f-fold交叉验证的思路,一共需要迭代n次,每次取该子模型对应子训练集下的1份子集作为测试集,其余n-1份作为该子训练集下的训练集,训练子模型得到这一参数组合
Figure FDA0003647435290000024
下的子模型的第一个均方误差,迭代n次之后,得到这一参数组合
Figure FDA0003647435290000025
下的子模型的n个均方误差,对这n个均方误差取平均后,作为这一参数组合
Figure FDA0003647435290000026
下的子模型的最终均方误差。
7.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S4中采用改进后的LWPLS对每个子训练集进行建模的过程为:将自变量输入带入算法中计算出对应因变量输出的过程,分别将子训练集、测试集带入到模型公式中计算即可得到测试集对应的采集成功率预测值,也即建模成功。
8.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S5中数采集失败率预测值的获取过程为:
当测试集中的某个样本据归于某个子训练集的质心邻域内时,即xq∈Θi,1≤i≤k),则认为该子训练集i百分百包含测试该样本数据xq,称之为内部点,直接将该测试样本数据带入该子训练集对应的子模型中进行预测,结果作为该内部点的最终预测值,而针对于归于某一子训练集但落在该子训练集的质心邻域边界之外的测试样本点,即xq∈SDi
Figure FDA0003647435290000027
称之为边界点;
当测试数据样本点为边界点时,根据贝叶斯定理对边界点周围的子训练集对应的子模型进行加权分配,公式如下所示:
Figure FDA0003647435290000031
Figure FDA0003647435290000032
Figure FDA0003647435290000033
其中,p(SDm)表示先验概率,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,m维向量um是第m个子训练集中各个维度的均值,矩阵∑m是其协方差矩阵,|∑m|是其对应的行列式;
最终对各个子模型进行加权之后得到的xq对应的最终预测值为yq
Figure FDA0003647435290000034
其中,yq表示气候样本点xq对应的计量设备采集失败率集成预测值,p(xq|SDm)表示第m个子训练集对应的子模型能准确预测xq的概率,ym,q表示第m个子训练集对应的子模型对气候样本点xq对应的计量设备采集失败率的预测值。
9.根据权利要求1所述的一种基于改进LWPLS的计量设备运行性能预测方法,其特征在于,所述步骤S5中结合测试集中真实采集失败率数据,计算出可决系数r2和均方根误差RMSE,用于评价改进LWPLS算法的预测精度和性能,公式如下所示:
Figure FDA0003647435290000035
Figure FDA0003647435290000036
其中,I为查询样本的数目,
Figure FDA0003647435290000037
yi分别为查询样本的预测值、平均值和真实值。
CN202210534974.2A 2022-05-17 2022-05-17 一种基于改进lwpls的计量设备运行性能预测方法 Active CN114970698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534974.2A CN114970698B (zh) 2022-05-17 2022-05-17 一种基于改进lwpls的计量设备运行性能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534974.2A CN114970698B (zh) 2022-05-17 2022-05-17 一种基于改进lwpls的计量设备运行性能预测方法

Publications (2)

Publication Number Publication Date
CN114970698A true CN114970698A (zh) 2022-08-30
CN114970698B CN114970698B (zh) 2024-06-18

Family

ID=82983805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534974.2A Active CN114970698B (zh) 2022-05-17 2022-05-17 一种基于改进lwpls的计量设备运行性能预测方法

Country Status (1)

Country Link
CN (1) CN114970698B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511227A (zh) * 2022-11-21 2022-12-23 国能日新科技股份有限公司 一种基于稳定学习的风力发电功率预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897774A (zh) * 2017-01-25 2017-06-27 浙江大学 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
CN112749849A (zh) * 2021-01-19 2021-05-04 华东理工大学 连续催化重整工艺过程关键参数的集成学习在线预测方法
CN114357870A (zh) * 2021-12-22 2022-04-15 国网江苏省电力有限公司营销服务中心 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897774A (zh) * 2017-01-25 2017-06-27 浙江大学 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
CN112749849A (zh) * 2021-01-19 2021-05-04 华东理工大学 连续催化重整工艺过程关键参数的集成学习在线预测方法
CN114357870A (zh) * 2021-12-22 2022-04-15 国网江苏省电力有限公司营销服务中心 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511227A (zh) * 2022-11-21 2022-12-23 国能日新科技股份有限公司 一种基于稳定学习的风力发电功率预测方法及装置

Also Published As

Publication number Publication date
CN114970698B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN111369070B (zh) 一种基于包络线聚类的多模融合光伏功率预测方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN108446711A (zh) 一种基于迁移学习的软件缺陷预测方法
CN113632101B (zh) 一种通过向量化分析预测大气污染的方法
CN106677763B (zh) 一种基于动态集成建模的油井动液面预测方法
CN111144644B (zh) 基于变分异方差高斯过程回归的短期风速预测方法
CN107798383B (zh) 改进的核极限学习机定位方法
CN107958267B (zh) 一种基于光谱线性表示的油品性质预测方法
CN116448419A (zh) 基于深度模型高维参数多目标高效寻优的零样本轴承故障诊断方法
CN113281229B (zh) 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN103577676A (zh) 污水处理工艺综合评价的灰色加权法
CN114583767B (zh) 一种数据驱动的风电场调频响应特性建模方法及系统
CN110879927A (zh) 一种用于海目标检测的海杂波幅度统计分布现场建模方法
CN114021483A (zh) 基于时域特征与XGBoost的超短期风电功率预测方法
CN114970698B (zh) 一种基于改进lwpls的计量设备运行性能预测方法
CN108830405B (zh) 基于多指标动态匹配的实时电力负荷预测系统及其方法
CN114357870A (zh) 基于局部加权偏最小二乘的计量设备运行性能预测分析方法
CN113359435B (zh) 用于火电机组动态工况数据的修正方法
Qin et al. A wireless sensor network location algorithm based on insufficient fingerprint information
CN113449920A (zh) 一种风电功率预测方法、系统及计算机可读介质
CN110555566B (zh) 一种基于b样条分位数回归的光电概率密度预测方法
CN116757321A (zh) 太阳直接辐射量预测方法、系统、设备及存储介质
CN116565850A (zh) 一种基于qr-blstm的风电功率超短期预测方法
CN107977727B (zh) 一种基于社会发展和气候因素预测光缆网阻断概率的方法
CN115600498A (zh) 一种基于人工神经网络的风速预报订正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant