CN114357870A - 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 - Google Patents
基于局部加权偏最小二乘的计量设备运行性能预测分析方法 Download PDFInfo
- Publication number
- CN114357870A CN114357870A CN202111582553.9A CN202111582553A CN114357870A CN 114357870 A CN114357870 A CN 114357870A CN 202111582553 A CN202111582553 A CN 202111582553A CN 114357870 A CN114357870 A CN 114357870A
- Authority
- CN
- China
- Prior art keywords
- sub
- training set
- training
- test set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 123
- 238000012360 testing method Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000003064 k means clustering Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000001419 dependent effect Effects 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000001556 precipitation Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006833 reintegration Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集;采用K‑Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;评价模型的预测精度和性能;获取运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值。本发明具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
Description
技术领域
本发明属于电力环境下的软测量建模技术领域,涉及基于局部加权偏最小二乘的计量设备运行性能预测分析方法。
背景技术
偏最小二乘算法(PLS)是第二代的建模回归算法,集成了多元线性回归(MLR)、主元分析(PCA)和典型相关分析(CCA),能够同时实现回归建模、数据结构简化以及变量之间的相关性分析。
PLS具有简单稳健、计算量小、预测精度高、易于定性解释等优点,适合对工业过程中维数高、非线性强、变量间相互耦合严重以及掺杂噪声的数据建模。PLS从本质上来看,仍旧是一种线性、静态的建模方法。
而在电力环境下面临的大多是非线性、含阶段特性的问题,直接利用传统的PLS不能保证模型的预测精度和稳定性。因此需要结合电力环境下的实际情况,选择合适的建模及优化算法,提高模型处理非线性问题的能力和改善其动态特性。
发明内容
为解决现有技术中的不足,本申请提供基于局部加权偏最小二乘的计量设备运行性能预测分析方法,可实现非线性和即时性预测,预测准确度较高。
为了实现上述目标,本发明采用如下技术方案:
基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
步骤2:采用K-Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,评价模型的预测精度和性能;
步骤5:实时获取一组新的运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
本发明进一步包括以下优选方案:
优选地,步骤1中,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括待预测计量设备的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
优选地,所述数据集中,每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
优选地,步骤2中,设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k,将其聚类成k个子训练集。
优选地,步骤2中,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k,k为子训练集数量。
优选地,所述局部加权偏最小二乘建模算法中,假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度,L代表子模型输出变量的维度;
当需要对测试集中的第q个自变量输入xq对应的因变量输出yq进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量的权重值,最后进行输出预测值。
优选地,步骤3具体包括以下步骤:
1)确定自变量中的主成分个数K,设置初始值K=1;
2)计算相似性矩阵,确定相似性样本wn:
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k。
式中,IN∈RN为全为1的列向量;
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
6)计算子训练集X的第k个负载向量pk和回归系数向量qk:
7)计算测试集中第q个自变量输入xq的第k个主成分tq,k:
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
优选地,步骤2)中,基于欧式距离确定相似性样本wn,具体为:
优选地,步骤4所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,具体包括以下步骤:
步骤4.1:计算测试集中第q组自变量输入xq与子训练集r的质心xr,z之间的欧式距离,r=1,2,..,k,k表示子训练集数量;
欧式距离计算公式为;
步骤4.2:基于测试集中的自变量输入xq与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重,对各个子模型的预测结果加权计算得出最终的预测结果。
优选地,步骤4.2所述权重计算公式为:
其中,p(xr,xq)表示测试集中第q个自变量输入xq代入各个子模型计算预测值yq时,各个子模型根据欧式距离计算出的该子模型预测结果对应的权重;
dr(xr,z,xq)表示测试集中第q个自变量输入xq与第r个子训练集的质心之间的距离;
优选地,步骤4.2中,对各个子模型的预测结果加权计算得出最终的预测结果为:
其中,yr,q为测试集中第q个自变量输入xq带入子训练集r对应子模型计算出的子模型预测值;k表示子训练集数量;Yq为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。
本申请所达到的有益效果:
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-Means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用局部加权偏最小二乘法进行建模,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
1、本发明采用局部加权偏最小二乘法(LWPLS)作为基本建模算法,能够针对电力环境下的非线性问题进行分析。
2、本发明采用K-Means聚类建模分析再集成计算的方法,能够针对电力环境下的具有阶段特性的数据进行更好的预测分析。
3、采用K-Means聚类算法结合局部加权偏最小二乘法,有效地提高地模型的预测精度。
附图说明
图1为本发明基于局部加权偏最小二乘的计量设备运行性能预测分析方法流程图;
图2为测试集采用基于K-Means聚类的LWPLS建模的预测;
图3为K-Means聚类的wcss图;
图4为实施例中采用PLS建模的预测结果图;
图5为本发明实施例中采用基于K-Means聚类的LWPLS建模的预测结果图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1和2所示,本发明的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
具体实施时,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括某台区下的某个集中器(即待预测计量设备)的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
对数据集进行预处理如下,将每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
步骤2:采用K-Means聚类算法将训练集聚类成k个子训练集,同时确定每个子训练集的质心;
具体实施时,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k。
设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k。
因为超过三维的数据集无法可视化聚类结果,因此利用簇内平方和(WCSS,Within-Cluster Sum of Squares)将K-means聚类结果的性能量化,对于一种聚类成k个簇的聚类策略,所有簇内的WCSS越低,代表簇内成员越紧密,WCSS越高,代表簇内结构越松散,WCSS必定会随着聚类个数k的增加而降低,另外结合肘部法则(Elbow)的原理,对于有一定区分度的数据,在达到某个k的临界点时簇内平方和(WCSS)会得到极大改善,之后缓慢下降,这个临界点k就可以考虑为聚类性能较好的点,将上述方法应用到本发明训练集的K-means聚类过程中,确定出该训练集的最佳聚类个数为3。
其中WCSS就是简单计算一下簇内距离,Elbow是一种主观的判断方法,由图3可以直接看出最佳聚类个数为3。
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
具体实施时,计算预测值的过程就是建模过程,建模只是它的一个概念表述,同时局部加权偏最小二乘法是一种即时性建模算法,会实时考虑新到数据对模型的影响,因此不存在一个固定不变的模型公式。
建模过程即为将自变量输入带入算法中计算出对应因变量输出的过程,分别将子训练集、测试集带入到下述算法对应的公式中计算即可得到测试集对应的采集成功率预测值,也即建模成功。
按照以下局部加权偏最小二乘建模算法的原理对每个子训练集进行建模:
假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度(本发明中为数据集自变量维度5),L代表子模型输出变量的维度(本发明中为数据集因变量维度1)。
当需要对测试集中的第q个自变量输入xq(即最高温度、最低温度、平均温度、相对湿度和降水量,下同)对应的因变量输出yq(即去除百分号的采集不成功率,下同)进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量(即最高温度xq1、最低温度xq2、平均温度xq3、相对湿度xq4和降水量xq5)的权重值,最后进行输出预测值。
子模型建模并用子模型给测试集进行预测得到测试集对应预测值,即LWPLS结合子训练集对测试集中的因变量输出进行预测的步骤如下所示:
1)确定主成分个数,假设自变量中的主成分个数为K,在LWPLS算法中的初始值通常设为K=1;
2)计算相似性矩阵:
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
相似性样本wn的选择通常基于欧式距离,具体如下所示。
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k。
式中,IN∈RN为全为1的列向量。
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
6)计算子训练集X的第k个负载向量和回归系数向量:
7)计算测试集中第q个自变量输入xq的第k个主成分:
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
本发明主成分个数为因变量个数,k取值范围为[1,5]。
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,计算出可决系数r2和均方根误差RMSE,用于评价模型的预测精度和性能;
所述根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,具体包括以下步骤:
步骤4.1:计算测试集中第q组自变量输入xq与子训练集r的质心xr,z之间的欧式距离,r=1,2,..,k,欧式距离计算公式为;
xq即一组最高温度xq1、最低温度xq2、平均温度xq3、相对湿度xq4和降水量xq5。
步骤4.2:基于测试集中的自变量输入xq与各个子训练集质心间的欧式距离得到各个子模型预测结果对应的权重,对各个子模型的预测结果加权计算得出最终的预测结果。
所述权重计算公式为:
其中,p(xr,xq)表示测试集中第q个自变量输入xq代入各个子模型计算预测值yq时,各个子模型根据欧式距离计算出的该子模型预测结果对应的权重;
dr(xr,z,xq)表示测试集中第q个自变量输入xq与第r个子训练集的质心之间的距离;
步骤4.2中,对各个子模型的预测结果加权计算得出最终的预测结果为:
其中,yr,q为测试集中第q个自变量输入xq带入子训练集r对应子模型计算出的子模型预测值;k表示子训练集数量;Yq为测试集中第q个自变量最终的各个子模型预测结果加权集成之后的集成预测值。
经过步骤4结合测试集中真实的采集成功率数据,计算出可决系数r2和均方根误差RMSE,可知采用步骤2和3K-Means+LWPLS方法的模型的预测精度和性能较PLS方案有显著提高;
图2是本发明步骤1-4形成的测试集基于K-Means聚类的LWPLS建模的预测流程图。
步骤5:实时获取一组新的运行数据(每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量),将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
本发明针对气候因素下的计量设备运行性能的阶段特性,采用K-Means聚类对数据集进行处理,针对气候因素下的计量设备运行性能的非线性、即时性,采用局部加权偏最小二乘法进行建模,算法具有较高的预测精度,可以有效应用于气候因素下的计量设备运行性能预测分析中。
实施例验证如下:
所用数据集为近三年内南京市某台区的计量设备(集中器)采集成功率随气候因素变化的数据集,自变量为每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量,用采集不成功率经过去百分号处理后(100*(1-y))作为因变量。
首先,采用原始的PLS建模算法对数据集进行分析,分析结果如图4所示,从图4中可以分析出,PLS建模算法无法对气候因素下的计量设备采集成功率进行很好的预测分析,因此本发明提出基于局部加权偏最小二乘的计量设备运行性能预测分析方法,本发明具体实施时,将原始数据集按照7:3的比例划分为训练集、测试集;采用Elbow方法确定该训练集适合聚类的个数k,由图3可知,最佳聚类个数为k=3;采用K-Means聚类算法将训练集划分为3个子训练集继而进行性能预测,预测结果如图5所示。从图5中可以分析出,采用K-Means聚类和局部加权偏最小二乘结合的方法,可以较好地对气候因素影响下地计量设备采集成功率进行预测分析。
对比PLS和本发明K-Means+LWPLS两种建模方案的建模效果,其中采用PLS建模的预测结果如图4所示,两种建模方案的建模效果如表1所示。
表1
建模方法 | r<sup>2</sup> | RMSE | MAE |
PLS | 0.35153 | 1.18328 | 0.96144 |
K-Means+LWPLS | 0.52648 | 1.01114 | 0.84207 |
由表1可知,K-Means+LWPLS方案的可决系数r2较PLS方案的可决系数r2显著提高,K-Means+LWPLS方案的均方根误差RMSE较PLS方案的RMSE显著降低,K-Means+LWPLS方案的建模效果较PLS方案的建模效果有明显改善。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (11)
1.基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述方法包括以下步骤:
步骤1:获取待预测计量设备的历史运行数据集并预处理数据集,将数据集划分为训练集与测试集,训练集用于训练模型,测试集用于测试所得模型的预测精度;
步骤2:采用K-Means聚类算法将训练集聚类成若干个子训练集,并计算每个子训练集的质心;
步骤3:将测试集与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下测试集对应的采集成功率预测值;
步骤4:根据测试集中的样本数据点到各个子训练集质心的距离对各子模型预测结果进行加权,集成得到最终的采集成功率预测值,结合测试集中真实的采集成功率数据,评价模型的预测精度和性能;
步骤5:实时获取一组新的运行数据,将运行数据与每个子训练集结合,利用局部加权偏最小二乘建模算法对每个子训练集进行子模型建模,并得到每个子模型下运行数据对应的采集成功率预测值,再根据该运行数据点到各个子训练集质心的距离对子模型预测值加权计算出该运行数据点对应的最终的采集成功率预测值,实现计量设备运行性能预测分析。
2.根据权利要求1所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤1中,所述计量设备历史运行数据集为:待预测计量设备历史采集成功率随气候因素变化的数据集;
所述数据集包括待预测计量设备的近三年内的每日采集成功率以及近三年内所在台区范围下的每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量。
3.根据权利要求2所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述数据集中,每日最高温度、每日最低温度、每日平均温度、每日相对湿度和每日降水量作为自变量,每日采集成功率处理为去除百分号后的采集不成功率100*(100%-y)后作为因变量,然后将数据集按照7:3的比例划分得到训练集与测试集。
4.根据权利要求1或3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤2中,设置聚类个数k的取值范围为[1,10],采用Elbow与WCSS结合的方法确定训练集的最佳聚类个数k,将其聚类成k个子训练集。
5.根据权利要求1或3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤2中,子训练集r的质心为该子训练集中所有样本数据点各个维度的算术平均值,r=1,2,…,k,k为子训练集数量。
6.根据权利要求3所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
所述局部加权偏最小二乘建模算法中,假设某个子训练集中自变量的矩阵为X∈RN*M,因变量矩阵为Y∈RN*L,子训练集的第n个自变量输入和因变量输出分别表示为:
xn=[xn1,xn2,…,xnM]T (1)
yn=[yn1,yn2,…,ynL]T (2)
式中:N代表输入和输出样本数,即子训练集中的样本数,M代表子模型输入变量的维度,L代表子模型输出变量的维度;
当需要对测试集中的第q个自变量输入xq对应的因变量输出yq进行预测时;
首先要计算测试集中第q个自变量输入xq和子训练集中的第n个自变量输入xn(n=0,1,…,N)之间的相似性;
然后根据相似性的大小确定测试集中第q个自变量输入xq中各个自变量的权重值,最后进行输出预测值。
7.根据权利要求6所述的基于局部加权偏最小二乘的计量设备运行性能预测分析方法,其特征在于:
步骤3具体包括以下步骤:
1)确定自变量中的主成分个数K,设置初始值K=1;
2)计算相似性矩阵,确定相似性样本wn:
Ω=diag{w1,w2,…,wN} (3)
式中:diag(·)代表取对角矩阵;
3)数据预处理,分别对子训练集中自变量输入、训练集中因变量输出和测试集中第q个自变量输入进行处理,分别计算Xk,Yk和xq,k。
式中,IN∈RN为全为1的列向量;
5)计算子训练集X的第k个主成分:
tk=Xkwk (11)
6)计算子训练集X的第k个负载向量pk和回归系数向量qk:
7)计算测试集中第q个自变量输入xq的第k个主成分tq,k:
8)令测试集的第q个因变量输出为yq=yq+tq,kqk,即为子训练集建模之后将测试集中的第q个自变量输入xq带入计算得到测试集中的第q个因变量的预测输出值;
9)若k=K,则结束计算,否则令:
xq,k+1=xq,k-tq,kpk (18)
10)令k=k+1,并转到步骤5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582553.9A CN114357870A (zh) | 2021-12-22 | 2021-12-22 | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111582553.9A CN114357870A (zh) | 2021-12-22 | 2021-12-22 | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357870A true CN114357870A (zh) | 2022-04-15 |
Family
ID=81101139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111582553.9A Pending CN114357870A (zh) | 2021-12-22 | 2021-12-22 | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357870A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970698A (zh) * | 2022-05-17 | 2022-08-30 | 河海大学 | 一种基于改进lwpls的计量设备运行性能预测方法 |
CN115271154A (zh) * | 2022-06-07 | 2022-11-01 | 中国长江电力股份有限公司 | 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法 |
-
2021
- 2021-12-22 CN CN202111582553.9A patent/CN114357870A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970698A (zh) * | 2022-05-17 | 2022-08-30 | 河海大学 | 一种基于改进lwpls的计量设备运行性能预测方法 |
CN114970698B (zh) * | 2022-05-17 | 2024-06-18 | 河海大学 | 一种基于改进lwpls的计量设备运行性能预测方法 |
CN115271154A (zh) * | 2022-06-07 | 2022-11-01 | 中国长江电力股份有限公司 | 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法 |
CN115271154B (zh) * | 2022-06-07 | 2023-12-29 | 中国长江电力股份有限公司 | 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199016A (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN108709745A (zh) | 一种基于增强型lpp算法和极限学习机快速轴承故障识别方法 | |
CN114357870A (zh) | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 | |
CN106503867A (zh) | 一种遗传算法最小二乘风电功率预测方法 | |
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
CN113705877A (zh) | 基于深度学习模型的实时月径流预报方法 | |
CN114692507B (zh) | 基于堆叠泊松自编码器网络的计数数据软测量建模方法 | |
CN110442911B (zh) | 一种基于统计机器学习的高维复杂系统不确定性分析方法 | |
CN114117852B (zh) | 一种基于有限差分工作域划分的区域热负荷滚动预测方法 | |
CN113919221B (zh) | 一种基于bp神经网络的风机载荷预测及分析方法、装置及存储介质 | |
CN105787259A (zh) | 一种多元气象因素对负荷变化影响相关性的分析方法 | |
CN111046961A (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
CN114021483A (zh) | 基于时域特征与XGBoost的超短期风电功率预测方法 | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN112596016A (zh) | 基于多个一维卷积神经网络集成的互感器故障诊断方法 | |
Wang et al. | Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring | |
CN114583767B (zh) | 一种数据驱动的风电场调频响应特性建模方法及系统 | |
CN114037143A (zh) | 一种短期风电功率组合预测方法 | |
CN113449920A (zh) | 一种风电功率预测方法、系统及计算机可读介质 | |
CN113435321A (zh) | 一种主轴轴承状态评估方法、系统、设备及可读存储介质 | |
CN111861002A (zh) | 基于数据驱动高斯学习技术的建筑物冷热负荷预测方法 | |
CN111797979A (zh) | 基于lstm模型的振动传递系统 | |
CN110276478B (zh) | 基于分段蚁群算法优化svm的短期风电功率预测方法 | |
CN114970698B (zh) | 一种基于改进lwpls的计量设备运行性能预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |