CN114357870A - 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 - Google Patents

基于局部加权偏最小二乘的计量设备运行性能预测分析方法 Download PDF

Info

Publication number
CN114357870A
CN114357870A CN202111582553.9A CN202111582553A CN114357870A CN 114357870 A CN114357870 A CN 114357870A CN 202111582553 A CN202111582553 A CN 202111582553A CN 114357870 A CN114357870 A CN 114357870A
Authority
CN
China
Prior art keywords
sub
training set
training
test set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111582553.9A
Other languages
English (en)
Inventor
周玉
陈霄
邵雪松
高凡
李悦
崔高颖
周超
穆卓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202111582553.9A priority Critical patent/CN114357870A/zh
Publication of CN114357870A publication Critical patent/CN114357870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集;采用K‑Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;评价模型的预测精度和性能;获取运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值。本发明具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。

Description

基于局部加权偏最小二乘的计量设备运行性能预测分析方法
技术领域
本发明属于电力环境下的软测量建模技术领域,涉及基于局部加权偏最小二乘的计量设备运行性能预测分析方法。
背景技术
偏最小二乘算法(PLS)是第二代的建模回归算法,集成了多元线性回归(MLR)、主元分析(PCA)和典型相关分析(CCA),能够同时实现回归建模、数据结构简化以及变量之间的相关性分析。
PLS具有简单稳健、计算量小、预测精度高、易于定性解释等优点,适合对工业过程中维数高、非线性强、变量间相互耦合严重以及掺杂噪声的数据建模。PLS从本质上来看,仍旧是一种线性、静态的建模方法。
而在电力环境下面临的大多是非线性、含阶段特性的问题,直接利用传统的PLS不能保证模型的预测精度和稳定性。因此需要结合电力环境下的实际情况,选择合适的建模及优化算法,提高模型处理非线性问题的能力和改善其动态特性。
发明内容
为解决现有技术中的不足,本申请提供基于局部加权偏最小二乘的计量设备运行性能预测分析方法,可实现非线性和即时性预测,预测准确度较高。
为了实现上述目标,本发明采用如下技术方案:
基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
步骤2:采用K-Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,评价模型的预测精度和性能;
步骤5:实时获取一组新的运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
本发明进一步包括以下优选方案:
优选地,步骤1中,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括待预测计量设备的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
优选地,所述数据集中,每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
优选地,步骤2中,设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k,将其聚类成k个子训练集。
优选地,步骤2中,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k,k为子训练集数量。
优选地,所述局部加权偏最小二乘建模算法中,假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度,L代表子模型输出变量的维度;
当需要对测试集中的第q个自变量输入xq对应的因变量输出yq进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量的权重值,最后进行输出预测值。
优选地,步骤3具体包括以下步骤:
1)确定自变量中的主成分个数K,设置初始值K=1;
2)计算相似性矩阵,确定相似性样本wn
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k
Figure BDA0003426683020000031
Figure BDA0003426683020000032
Figure BDA0003426683020000033
Figure BDA0003426683020000034
Figure BDA0003426683020000035
式中,IN∈RN为全为1的列向量;
4)令测试集第q个因变量输出
Figure BDA0003426683020000036
即子训练集下对应的测试集第q个自变量对应的原始因变量预测值;
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
式中,wk
Figure BDA0003426683020000037
的最大特征值对应的特征向量;
wk的计算方式为:
Figure BDA0003426683020000041
6)计算子训练集X的第k个负载向量pk和回归系数向量qk
Figure BDA0003426683020000042
Figure BDA0003426683020000043
7)计算测试集中第q个自变量输入xq的第k个主成分tq,k
Figure BDA0003426683020000044
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
Figure BDA0003426683020000045
Figure BDA0003426683020000046
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
优选地,步骤2)中,基于欧式距离确定相似性样本wn,具体为:
Figure BDA0003426683020000047
Figure BDA0003426683020000048
优选地,步骤4所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,具体包括以下步骤:
步骤4.1:计算测试集中第q组自变量输入xq与子训练集r的质心xr,z之间的欧式距离,r=1,2,..,k,k表示子训练集数量;
欧式距离计算公式为;
Figure BDA0003426683020000051
步骤4.2:基于测试集中的自变量输入xq与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重,对各个子模型的预测结果加权计算得出最终的预测结果。
优选地,步骤4.2所述权重计算公式为:
Figure BDA0003426683020000052
其中,p(xr,xq)表示测试集中第q个自变量输入xq代入各个子模型计算预测值yq时,各个子模型根据欧式距离计算出的该子模型预测结果对应的权重;
dr(xr,z,xq)表示测试集中第q个自变量输入xq与第r个子训练集的质心之间的距离;
Figure BDA0003426683020000053
表示测试集中第q个自变量输入xq与所有子训练集质心的距离之和。
优选地,步骤4.2中,对各个子模型的预测结果加权计算得出最终的预测结果为:
Figure BDA0003426683020000054
其中,yr,q为测试集中第q个自变量输入xq带入子训练集r对应子模型计算出的子模型预测值;k表示子训练集数量;Yq为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。
本申请所达到的有益效果:
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-Means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用局部加权偏最小二乘法进行建模,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
1、本发明采用局部加权偏最小二乘法(LWPLS)作为基本建模算法,能够针对电力环境下的非线性问题进行分析。
2、本发明采用K-Means聚类建模分析再集成计算的方法,能够针对电力环境下的具有阶段特性的数据进行更好的预测分析。
3、采用K-Means聚类算法结合局部加权偏最小二乘法,有效地提高地模型的预测精度。
附图说明
图1为本发明基于局部加权偏最小二乘的计量设备运行性能预测分析方法流程图;
图2为测试集采用基于K-Means聚类的LWPLS建模的预测;
图3为K-Means聚类的wcss图;
图4为实施例中采用PLS建模的预测结果图;
图5为本发明实施例中采用基于K-Means聚类的LWPLS建模的预测结果图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1和2所示,本发明的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
具体实施时,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括某台区下的某个集中器(即待预测计量设备)的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
对数据集进行预处理如下,将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
步骤2:采用K-Means聚类算法将训练集聚类成k个子训练集,同时确定每个子训练集的质心;
具体实施时,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k。
设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k。
因为超过三维的数据集无法可视化聚类结果,因此利用簇内平方和(WCSS,Within-Cluster Sum of Squares)将K-means聚类结果的性能量化,对于一种聚类成k个簇的聚类策略,所有簇内的WCSS越低,代表簇内成员越紧密,WCSS越高,代表簇内结构越松散,WCSS必定会随着聚类个数k的增加而降低,另外结合肘部法则(Elbow)的原理,对于有一定区分度的数据,在达到某个k的临界点时簇内平方和(WCSS)会得到极大改善,之后缓慢下降,这个临界点k就可以考虑为聚类性能较好的点,将上述方法应用到本发明训练集的K-means聚类过程中,确定出该训练集的最佳聚类个数为3。
其中WCSS就是简单计算一下簇内距离,Elbow是一种主观的判断方法,由图3可以直接看出最佳聚类个数为3。
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
具体实施时,计算预测值的过程就是建模过程,建模只是它的一个概念表述,同时局部加权偏最小二乘法是一种即时性建模算法,会实时考虑新到数据对模型的影响,因此不存在一个固定不变的模型公式。
建模过程即为将自变量输入带入算法中计算出对应因变量输出的过程,分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值,也即建模成功。
按照以下局部加权偏最小二乘建模算法的原理对每个子训练集进行建模:
假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度(本发明中为数据集自变量维度5),L代表子模型输出变量的维度(本发明中为数据集因变量维度1)。
当需要对测试集中的第q个自变量输入xq(即最高温度、最低温度、平均温度、相对湿度和降水量,下同)对应的因变量输出yq(即去除百分号的采集不成功率,下同)进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量(即最高温度xq1、最低温度xq2、平均温度xq3、相对湿度xq4和降水量xq5)的权重值,最后进行输出预测值。
子模型建模并用子模型给测试集进行预测得到测试集对应预测值,即LWPLS结合子训练集对测试集中的因变量输出进行预测的步骤如下所示:
1)确定主成分个数,假设自变量中的主成分个数为K,在LWPLS算法中的初始值通常设为K=1;
2)计算相似性矩阵:
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
相似性样本wn的选择通常基于欧式距离,具体如下所示。
Figure BDA0003426683020000081
Figure BDA0003426683020000082
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k
Figure BDA0003426683020000091
Figure BDA0003426683020000092
Figure BDA0003426683020000093
Figure BDA0003426683020000094
Figure BDA0003426683020000095
式中,IN∈RN为全为1的列向量。
4)令测试集第q个因变量输出
Figure BDA0003426683020000096
也即该子训练集下对应的测试集第q个自变量对应的原始因变量预测值;
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
式中,wk
Figure BDA0003426683020000097
的最大特征值对应的特征向量,则wk的计算方式如下所示:
Figure BDA0003426683020000098
6)计算子训练集X的第k个负载向量和回归系数向量:
Figure BDA0003426683020000099
Figure BDA00034266830200000910
7)计算测试集中第q个自变量输入xq的第k个主成分:
Figure BDA00034266830200000911
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
Figure BDA00034266830200000912
Figure BDA0003426683020000101
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
本发明主成分个数为因变量个数,k取值范围为[1,5]。
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,计算出可决系数r2和均方根误差RMSE,用于评价模型的预测精度和性能;
所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,具体包括以下步骤:
步骤4.1:计算测试集中第q组自变量输入xq与子训练集r的质心xr,z之间的欧式距离,r=1,2,..,k,欧式距离计算公式为;
Figure BDA0003426683020000102
xq即一组最高温度xq1、最低温度xq2、平均温度xq3、相对湿度xq4和降水量xq5
步骤4.2:基于测试集中的自变量输入xq与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重,对各个子模型的预测结果加权计算得出最终的预测结果。
所述权重计算公式为:
Figure BDA0003426683020000103
其中,p(xr,xq)表示测试集中第q个自变量输入xq代入各个子模型计算预测值yq时,各个子模型根据欧式距离计算出的该子模型预测结果对应的权重;
dr(xr,z,xq)表示测试集中第q个自变量输入xq与第r个子训练集的质心之间的距离;
Figure BDA0003426683020000104
表示测试集中第q个自变量输入xq与所有子训练集质心的距离之和。
步骤4.2中,对各个子模型的预测结果加权计算得出最终的预测结果为:
Figure BDA0003426683020000111
其中,yr,q为测试集中第q个自变量输入xq带入子训练集r对应子模型计算出的子模型预测值;k表示子训练集数量;Yq为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。
经过步骤4结合测试集中真实的采集成功率数据,计算出可决系数r2和均方根误差RMSE,可知采用步骤2和3K-Means+LWPLS方法的模型的预测精度和性能较PLS方案有显著提高;
图2是本发明步骤1-4形成的测试集基于K-Means聚类的LWPLS建模的预测流程图。
步骤5:实时获取一组新的运行数据(每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量),将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-Means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用局部加权偏最小二乘法进行建模,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
实施例验证如下:
所用数据集为近三年内南京市某台区的计量设备(集中器)采集成功率随气候因素变化的数据集,自变量为每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量,用采集不成功率经过去百分号处理后(100*(1-y))作为因变量。
首先,采用原始的PLS建模算法对数据集进行分析,分析结果如图4所示,从图4中可以分析出,PLS建模算法无法对气候因素下的计量设备采集成功率进行很好的预测分析,因此本发明提出基于局部加权偏最小二乘的计量设备运行性能预测分析方法,本发明具体实施时,将原始数据集按照7:3的比例划分为训练集、测试集;采用Elbow方法确定该训练集适合聚类的个数k,由图3可知,最佳聚类个数为k=3;采用K-Means聚类算法将训练集划分为3个子训练集继而进行性能预测,预测结果如图5所示。从图5中可以分析出,采用K-Means聚类和局部加权偏最小二乘结合的方法,可以较好地对气候因素影响下地计量设备采集成功率进行预测分析。
对比PLS和本发明K-Means+LWPLS两种建模方案的建模效果,其中采用PLS建模的预测结果如图4所示,两种建模方案的建模效果如表1所示。
表1
建模方法 r<sup>2</sup> RMSE MAE
PLS 0.35153 1.18328 0.96144
K-Means+LWPLS 0.52648 1.01114 0.84207
由表1可知,K-Means+LWPLS方案的可决系数r2较PLS方案的可决系数r2显著提高,K-Means+LWPLS方案的均方根误差RMSE较PLS方案的RMSE显著降低,K-Means+LWPLS方案的建模效果较PLS方案的建模效果有明显改善。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (11)

1.基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述方法包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
步骤2:采用K-Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,评价模型的预测精度和性能;
步骤5:实时获取一组新的运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
2.根据权利要求1所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤1中,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括待预测计量设备的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
3.根据权利要求2所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述数据集中,每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
4.根据权利要求1或3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤2中,设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k,将其聚类成k个子训练集。
5.根据权利要求1或3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤2中,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k,k为子训练集数量。
6.根据权利要求3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述局部加权偏最小二乘建模算法中,假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度,L代表子模型输出变量的维度;
当需要对测试集中的第q个自变量输入xq对应的因变量输出yq进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量的权重值,最后进行输出预测值。
7.根据权利要求6所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤3具体包括以下步骤:
1)确定自变量中的主成分个数K,设置初始值K=1;
2)计算相似性矩阵,确定相似性样本wn
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k
Figure FDA0003426683010000031
Figure FDA0003426683010000032
Figure FDA0003426683010000033
Figure FDA0003426683010000034
Figure FDA0003426683010000035
式中,IN∈RN为全为1的列向量;
4)令测试集第q个因变量输出
Figure FDA0003426683010000036
即子训练集下对应的测试集第q个自变量对应的原始因变量预测值;
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
式中,wk
Figure FDA0003426683010000037
的最大特征值对应的特征向量;
wk的计算方式为:
Figure FDA0003426683010000038
6)计算子训练集X的第k个负载向量pk和回归系数向量qk
Figure FDA0003426683010000039
Figure FDA00034266830100000310
7)计算测试集中第q个自变量输入xq的第k个主成分tq,k
Figure FDA0003426683010000041
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
Figure FDA0003426683010000042
Figure FDA0003426683010000043
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
8.根据权利要求7所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤2)中,基于欧式距离确定相似性样本wn,具体为:
Figure FDA0003426683010000044
Figure FDA0003426683010000045
9.根据权利要求3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤4所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,具体包括以下步骤:
步骤4.1:计算测试集中第q组自变量输入xq与子训练集r的质心xr,z之间的欧式距离,r=1,2,..,k,k表示子训练集数量;
欧式距离计算公式为;
Figure FDA0003426683010000046
步骤4.2:基于测试集中的自变量输入xq与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重,对各个子模型的预测结果加权计算得出最终的预测结果。
10.根据权利要求9所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤4.2所述权重计算公式为:
Figure FDA0003426683010000051
其中,p(xr,xq)表示测试集中第q个自变量输入xq代入各个子模型计算预测值yq时,各个子模型根据欧式距离计算出的该子模型预测结果对应的权重;
dr(xr,z,xq)表示测试集中第q个自变量输入xq与第r个子训练集的质心之间的距离;
Figure FDA0003426683010000052
表示测试集中第q个自变量输入xq与所有子训练集质心的距离之和。
11.根据权利要求9所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤4.2中,对各个子模型的预测结果加权计算得出最终的预测结果为:
Figure FDA0003426683010000053
其中,yr,q为测试集中第q个自变量输入xq带入子训练集r对应子模型计算出的子模型预测值;k表示子训练集数量;Yq为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。
CN202111582553.9A 2021-12-22 2021-12-22 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 Pending CN114357870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111582553.9A CN114357870A (zh) 2021-12-22 2021-12-22 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111582553.9A CN114357870A (zh) 2021-12-22 2021-12-22 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Publications (1)

Publication Number Publication Date
CN114357870A true CN114357870A (zh) 2022-04-15

Family

ID=81101139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111582553.9A Pending CN114357870A (zh) 2021-12-22 2021-12-22 基于局部加权偏最小二乘的计量设备运行性能预测分析方法

Country Status (1)

Country Link
CN (1) CN114357870A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970698A (zh) * 2022-05-17 2022-08-30 河海大学 一种基于改进lwpls的计量设备运行性能预测方法
CN115271154A (zh) * 2022-06-07 2022-11-01 中国长江电力股份有限公司 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970698A (zh) * 2022-05-17 2022-08-30 河海大学 一种基于改进lwpls的计量设备运行性能预测方法
CN114970698B (zh) * 2022-05-17 2024-06-18 河海大学 一种基于改进lwpls的计量设备运行性能预测方法
CN115271154A (zh) * 2022-06-07 2022-11-01 中国长江电力股份有限公司 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法
CN115271154B (zh) * 2022-06-07 2023-12-29 中国长江电力股份有限公司 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法

Similar Documents

Publication Publication Date Title
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN108709745A (zh) 一种基于增强型lpp算法和极限学习机快速轴承故障识别方法
CN114357870A (zh) 基于局部加权偏最小二乘的计量设备运行性能预测分析方法
CN106503867A (zh) 一种遗传算法最小二乘风电功率预测方法
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
CN113705877A (zh) 基于深度学习模型的实时月径流预报方法
CN114692507B (zh) 基于堆叠泊松自编码器网络的计数数据软测量建模方法
CN110442911B (zh) 一种基于统计机器学习的高维复杂系统不确定性分析方法
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
CN113919221B (zh) 一种基于bp神经网络的风机载荷预测及分析方法、装置及存储介质
CN105787259A (zh) 一种多元气象因素对负荷变化影响相关性的分析方法
CN111046961A (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN114021483A (zh) 基于时域特征与XGBoost的超短期风电功率预测方法
CN113379116A (zh) 基于聚类和卷积神经网络的台区线损预测方法
CN112596016A (zh) 基于多个一维卷积神经网络集成的互感器故障诊断方法
Wang et al. Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring
CN114583767B (zh) 一种数据驱动的风电场调频响应特性建模方法及系统
CN114037143A (zh) 一种短期风电功率组合预测方法
CN113449920A (zh) 一种风电功率预测方法、系统及计算机可读介质
CN113435321A (zh) 一种主轴轴承状态评估方法、系统、设备及可读存储介质
CN111861002A (zh) 基于数据驱动高斯学习技术的建筑物冷热负荷预测方法
CN111797979A (zh) 基于lstm模型的振动传递系统
CN110276478B (zh) 基于分段蚁群算法优化svm的短期风电功率预测方法
CN114970698B (zh) 一种基于改进lwpls的计量设备运行性能预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination