CN113807568A - 一种电力负荷预测方法、装置及终端设备 - Google Patents
一种电力负荷预测方法、装置及终端设备 Download PDFInfo
- Publication number
- CN113807568A CN113807568A CN202110921753.6A CN202110921753A CN113807568A CN 113807568 A CN113807568 A CN 113807568A CN 202110921753 A CN202110921753 A CN 202110921753A CN 113807568 A CN113807568 A CN 113807568A
- Authority
- CN
- China
- Prior art keywords
- power load
- data
- optimizer
- parameter
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 87
- 238000003066 decision tree Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Power Engineering (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Feedback Control In General (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种电力负荷预测方法、装置及终端设备,包括获取电力负荷数据;基于Spark引擎,将电力负荷数据输入到基于K‑means算法的模型,采用优化器对模型进行优化,获得聚类模型,输出聚类后的待预测电力负荷数据;将所述待预测电力负荷数据分成训练集和预测集;将所述训练集和所述预测集转换为第一RDD数据集和第二RDD数据集;将第一RDD数据集输入到基于Spark引擎的XGboost模型,采用优化器对模型进行优化获得负荷预测模型,对第二RDD数据集进行电力负荷预测。本发明实施例通过自动选择基于K‑means的模型和XGboost模型的最优参数,大大降低了模型训练的时间,提高了电力负荷预测的精度。
Description
技术领域
本发明涉及电力数据处理领域,尤其涉及一种电力负荷预测方法、装置及终端设备。
背景技术
随着智能电网和清洁能源逐渐成为电力行业发展的方向,电力负荷预测越来越受到电力工作者的关注。精准的电力负荷预测能够为电力系统的调度策略以及电网的运行结构调整提供重要的依据,有效地提高电力系统运行的稳定性。
目前,电力负荷预测常用的方法可以分为经典方法和人工智能方法。经典方法是基于数学建模的一种方法,包括时间序列分析、回归分析等,然而,经典模型是一种单一的线性模型,其预测精度无法满足现状,当前电力负荷的影响因素超过32种以上,简单的回归分析已经无法很好的拟合模型。人工智能的方法如:神经网络、SVM、随机森林等,在多维数据的拟合上都有很好的表现,然而利用人工智能的方法搭建模型的时候,需要工程师利用自身的经验对模型性能进行优化,包括对模型参数进行调优和选择,还要对模型的损失函数和正则项进行选择,不仅大大增加了模型训练的时间,而且无法确保优化后的模型为最优模型,影响电力负荷预测结果的准确度。
发明内容
针对上述问题,本发明实施例的目的在于提供一种电力负荷预测方法、装置、终端设备及存储介质,能够利用自动机器学习搭建预测电力负荷的最优模型,大大降低了模型训练的时间,提高了电力负荷预测的精度。
为了实现上述目的,本发明实施例第一方面提供了一种电力负荷预测方法,包括数据获取步骤、数据聚类步骤、数据划分步骤、数据转换步骤、负荷预测步骤;所述数据获取步骤具体为:获取电力负荷数据;所述数据聚类步骤具体为:基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据;所述数据划分步骤具体为:将所述待预测电力负荷数据分成训练集和预测集;所述数据转换步骤具体为:基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集;所述负荷预测步骤具体为:将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
进一步地,所述电力负荷预测方法在获取所述电力负荷数据后还包括:对所述电力负荷数据进行预处理,所述预处理包括缺失值过滤处理、缺失值填充处理和异常值过滤处理;对预处理后的电力负荷数据进行归一化处理;采用SMOTE算法对归一化处理后的电力负荷数据进行重采样;则,所述基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型具体包括:基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型。
进一步地,所述电力负荷预测方法在对所述归一化处理后的电力负荷数据进行重采样后,还包括:采用互信法对所述重采样后的电力负荷数据的特征属性进行选择,获得待聚类数据;则,所述基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型具体包括:基于Spark引擎,将所述待聚类数据输入到基于K-means算法的模型。
进一步地,所述电力负荷预测方法在执行所述数据聚类步骤后,还包括:采用PCA算法对所述待预测电力负荷数据进行降维操作,获得低维度电力负荷数据;则,所述将所述待预测电力负荷数据分成训练集和预测集具体包括:将所述低维度电力负荷数据分成训练集和预测集。
进一步地,所述采用优化器将所述K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数具体包括:设置贝叶斯优化器的搜索范围;将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;其中,所述第一最优超参数包括簇的最优个数。
进一步地,所述采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数具体包括:设置贝叶斯优化器的搜索范围;将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
本发明实施例第二方面提供了一种电力负荷预测装置,包括:数据获取模块,用于获取电力负荷数据;数据聚类模块,用于基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据;数据划分模块:用于将所述待预测电力负荷数据分成训练集和预测集;数据转换模块,用于基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集;负荷预测模块,用于将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
进一步地,所述数据聚类模块还用于:设置贝叶斯优化器的搜索范围;将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;其中,所述第一最优超参数包括簇的最优个数。
进一步地,所述负荷预测模块还用于:设置贝叶斯优化器的搜索范围;将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
本发明第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的电力负荷预测方法。
相比于现有技术,本发明实施例的有益效果在于:本发明实施例提供的一种电力负荷预测方法、装置及终端设备,通过利用贝叶斯优化器对基于K-means的模型和XGboost模型进行优化,自动选择模型的最优参数,从而获得最优的聚类模型和负荷预测模型,大大降低了模型训练的时间,提高了电力负荷预测的精度。
附图说明
图1是本发明提供的一种电力负荷预测方法的一个优选实施例的流程示意图;
图2是本发明提供的一种电力负荷预测装置的一个优选实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一种电力负荷预测方法的一个优选实施例的流程示意图。
本发明实施例第一方面提供了一种电力负荷预测方法,包括步骤S1至步骤S5,具体如下:
步骤S1为数据获取步骤,具体为:获取电力负荷数据。
需要说明的是,电力负荷数据一般会受历史负荷、气象因素、日期因素等超过32维因素的影响,因此会对这些因素的数据进行采集。历史负荷因数包括:前一天的负荷数据和前一天的负荷极值;气象因素包括:湿度、温度、风速、降雨量、气压;日期因素包括:小时、星期、月份等因素。
优选地,在获取所述电力负荷数据后,还包括:对所述电力负荷数据进行预处理,所述预处理包括缺失值过滤处理、缺失值填充处理和异常值过滤处理;
具体的,所述缺失值过滤处理会自动对缺失值比例较高的列进行过滤,设置默认的缺失值比例为0.5,一般认为缺失值比例大于0.5的列对于结果影响不大;除此之外,对取值相同的列也进行过滤处理,因为相同的列只需保留其中一列即可,不会影响电力负荷预测的结果。
优选地,所述缺失值填充处理目的是对缺失值比例低于0.2的列进行填充。
具体的,所述异常值过滤处理采用3倍标准差原则,即整体平均数±整体标准差×用户设置的标准差倍数(默认为3)。
优选地,为了避免数据不属于一个量纲的数,在所述电力负荷数据进行预处理后,对对预处理后的电力负荷数据进行归一化处理,其原则是当数据为连续型数据时,则需要进行归一化。
优选地,针对数据不平衡的问题,当存在类别样本差异过大时,采用SMOTE(Synthetic Minority Oversampling Technique,合成少数类过采样技术)算法对归一化处理后的电力负荷数据进行重采样。
优选地,在将所述电力负荷数据进行预处理、归一化处理和重采样处理后,将处理后的电力负荷数据存储在HIVE数据仓库。
优选地,由于数据维度过多,且样本数量巨大,因此采用互信法对上述重采样后的电力负荷数据的特征属性进行选择,获得待聚类数据,经过特征属性的选择能减少样本数据中多余的信息,降低聚类模型与负荷预测模型训练的时间,提高电力负荷预测的精确度。
步骤S2为数据聚类步骤,具体为:基于Spark引擎,将所述电力负荷数据输入到基于K-means算法(K均值聚类算法)的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据。
具体的,所述采用优化器将所述K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数具体包括:设置贝叶斯优化器的搜索范围;将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;其中,所述第一最优超参数包括簇的最优个数。
需要说明的是,基于K-means算法的模型的超参数都可以通过贝叶斯优化器进行自动优化和选择,贝叶斯优化器的搜索过程有两个重要的部分,即求解先验函数与求解采集函数。
求解先验函数主要通过高斯回归函数进行求解,目的是为了逼近所述基于K-means算法的模型的损失函数;求解采集函数主要包括EI(Expected improvement)、PI(Probability of improvement)和UCB(Upper confidence bound)这几种方法,能实现开发(exploitation)和探索(exploration)之间的权衡;经过不断迭代地求解先验函数和求解采集函数可以选择出基于K-means算法的模型的最优超参数。
优选地,本发明实施例通过UCB算法求解采集函数,UCB=μ(x)+kσ(x),其中,k为调节参数,可直观地理解为上置信边界,μ(x)为高斯回归过程求得的未知点的均值,σ(x)为高斯回归过程求得的未知点的标准差。
具体的,采用贝叶斯优化器对基于K-means算法的模型进行优化的步骤为:随机初始化搜索参数,将K-means算法的损失函数作为搜索对象,通过高斯回归函数求解先验函数,再通过UCB算法求解采集函数,不断迭代上述求解过程,直到求解得到K-means算法的损失函数的最小值,进而得到基于K-means算法的模型的最优超参数,包括K-means算法的簇的最优个数,最终得到聚类模型。
优选地,为了提高电力负荷预测的效率,在执行完数据聚类步骤之后,对聚类完成的多个类别的待预测数据进行降维操作,采用PCA(Principal ComponentAnalysis,主成分分析)算法对大于20维特征的待预测数据进行维度压缩。
步骤S3为数据划分步骤,具体为:将所述待预测电力负荷数据分成训练集和预测集。
步骤S4为数据转换步骤,具体为:基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集。
步骤S5为负荷预测步骤,具体为:将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
具体的,采用Spark引擎进行分布式并行计算,算法采用XGboost算法的回归树法进行预测,XGboost使用XGboost4J-Spark包,可以在Spark上分布式运行。
具体的,所述采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数具体包括:设置贝叶斯优化器的搜索范围;将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
具体的,XGBoost算法的关键是利用损失函数的二阶泰勒展开,并加入正则化降低模型复杂度,避免“过拟合”。建立由k棵决策树组成的加法模型:
其中,obj(t)表示目标函数,yi是电力负荷历史数据,T是决策树叶子的个数,w是叶子的权重,γ是叶子的惩罚项,λ是权重的惩罚项。对损失函数二阶泰勒展开,对求偏导,将ft(xi)看作Δx,则目标函数为:
其中,gi定义为平方损失函数的一阶导数,hi表示二阶导数信息,为常数项信息,去掉常数项信息,并将决策树定义为ft(x)=wq(x),定义集合Ij={i|q(xi)=j}为所有被划分到叶子节点j的训练样本的集合。根据决策树叶子节点重新组织为T,其目标函数为:
对式(6)中wj求偏导并等于0,把求解得到的wj代入式(6)得到最终的目标函数:
其中,Gj是叶子节点j所包含的样本的一阶导数的和,Hj是叶子节点j所包含的样本的二阶导数的和。
具体的,采用贝叶斯优化器对XGboost模型进行优化的步骤为:随机初始化搜索参数,将XGboost算法的损失函数作为搜索对象,通过高斯回归函数求解先验函数,再通过UCB算法求解采集函数,不断迭代上述求解过程,直到求解得到XGboost算法的损失函数的最小值,进而得到XGboost模型的最优超参数,影响XGboost模型的参数主要是决策树的深度和决策树的个数,因此XGboost模型的最优超参数包括决策树的深度和决策树的个数,最终得到负荷预测模型。
本发明实施例提供的一种电力负荷预测方法,通过利用贝叶斯优化器对基于K-means的模型和XGboost模型进行优化,自动选择模型的最优参数,从而获得最优的聚类模型和负荷预测模型,大大降低了模型训练的时间,提高了电力负荷预测的精度。
参见图2,是本发明提供的一种电力负荷预测装置的一个优选实施例的结构示意图。
本发明实施例第二方面提供了一种电力负荷预测装置,包括:数据获取模块201,用于获取电力负荷数据;数据聚类模块202,用于基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据;数据划分模块203:用于将所述待预测电力负荷数据分成训练集和预测集;数据转换模块204,用于基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集;负荷预测模块205,用于将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
进一步地,所述数据获取模块201还用于:在获取所述电力负荷数据后,对所述电力负荷数据进行预处理,所述预处理包括缺失值过滤处理、缺失值填充处理和异常值过滤处理;对预处理后的电力负荷数据进行归一化处理;采用SMOTE算法对归一化处理后的电力负荷数据进行重采样;则,所述基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型具体包括:基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型。
进一步地,所述数据获取模块201还用于:在对所述归一化处理后的电力负荷数据进行重采样后,采用互信法对所述重采样后的电力负荷数据的特征属性进行选择,获得待聚类数据;则,所述基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型具体包括:基于Spark引擎,将所述待聚类数据输入到基于K-means算法的模型。
进一步地,所述数据划分模块203还用于:在执行所述数据聚类步骤后,采用PCA算法对所述待预测电力负荷数据进行降维操作,获得低维度电力负荷数据;则,所述将所述待预测电力负荷数据分成训练集和预测集具体包括:将所述低维度电力负荷数据分成训练集和预测集。
进一步地,所述数据聚类模块202还用于:设置贝叶斯优化器的搜索范围;将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;其中,所述第一最优超参数包括簇的最优个数。
进一步地,所述负荷预测模块205还用于:设置贝叶斯优化器的搜索范围;将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
需要说明的是,本发明实施例所提供的一种电力负荷预测装置,能够实现上述任一实施例所述的电力负荷预测方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的电力负荷预测方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的电力负荷预测方法。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种电力负荷预测方法,其特征在于,包括数据获取步骤、数据聚类步骤、数据划分步骤、数据转换步骤、负荷预测步骤;
所述数据获取步骤具体为:获取电力负荷数据;
所述数据聚类步骤具体为:基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据;
所述数据划分步骤具体为:将所述待预测电力负荷数据分成训练集和预测集;
所述数据转换步骤具体为:基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集;
所述负荷预测步骤具体为:将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
2.如权利要求1所述的电力负荷预测方法,其特征在于,所述方法在获取所述电力负荷数据后还包括:
对所述电力负荷数据进行预处理,所述预处理包括缺失值过滤处理、缺失值填充处理和异常值过滤处理;
对预处理后的电力负荷数据进行归一化处理;
采用SMOTE算法对归一化处理后的电力负荷数据进行重采样;
则,所述基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型具体包括:
基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型。
3.如权利要求2所述的电力负荷预测方法,其特征在于,所述方法在对所述归一化处理后的电力负荷数据进行重采样后,还包括:
采用互信法对所述重采样后的电力负荷数据的特征属性进行选择,获得待聚类数据;
则,所述基于Spark引擎,将重采样后的电力负荷数据输入到基于K-means算法的模型具体包括:
基于Spark引擎,将所述待聚类数据输入到基于K-means算法的模型。
4.如权利要求1所述的电力负荷预测方法,其特征在于,所述方法在执行所述数据聚类步骤后,还包括:
采用PCA算法对所述待预测电力负荷数据进行降维操作,获得低维度电力负荷数据;
则,所述将所述待预测电力负荷数据分成训练集和预测集具体包括:
将所述低维度电力负荷数据分成训练集和预测集。
5.如权利要求1所述的电力负荷预测方法,其特征在于,所述采用优化器将所述K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数具体包括:
设置贝叶斯优化器的搜索范围;
将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;
其中,所述第一最优超参数包括簇的最优个数。
6.如权利要求1所述的电力负荷预测方法,其特征在于,所述采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数具体包括:
设置贝叶斯优化器的搜索范围;
将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;
其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
7.一种电力负荷预测装置,其特征在于,包括:
数据获取模块,用于获取电力负荷数据;
数据聚类模块,用于基于Spark引擎,将所述电力负荷数据输入到基于K-means算法的模型,采用优化器将K-means算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第一最优超参数,将所述第一最优超参数作为所述基于K-means算法的模型的参数,获得聚类模型,根据所述聚类模型,对所述电力负荷数据进行聚类,输出待预测电力负荷数据;
数据划分模块:用于将所述待预测电力负荷数据分成训练集和预测集;
数据转换模块,用于基于所述Spark引擎,将所述训练集进行RDD转换,生成第一RDD数据集,将所述预测集进行RDD转换,生成第二RDD数据集;
负荷预测模块,用于将所述第一RDD数据集输入到基于所述Spark引擎的XGboost模型,采用所述优化器将所述XGboost算法的损失函数作为所述优化器的搜索对象进行参数搜索,得到第二最优超参数,将所述第二最优超参数作为所述XGboost模型的参数,获得负荷预测模型,将所述第二RDD数据集输入到所述负荷预测模型进行电力负荷预测,输出电力负荷预测值。
8.如权利要求7所述的电力负荷预测装置,其特征在于,所述数据聚类模块还用于:
设置贝叶斯优化器的搜索范围;将所述K-means算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第一最优超参数;其中,所述第一最优超参数包括簇的最优个数。
9.如权利要求8所述的电力负荷预测装置,其特征在于,所述负荷预测模块还用于:
设置贝叶斯优化器的搜索范围;将所述XGboost算法的损失函数作为所述贝叶斯优化器的搜索对象,迭代求解先验函数与采集函数,获得第二最优超参数;其中,所述第二最优超参数包括决策树的最优深度和决策树的最优个数。
10.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的电力负荷预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921753.6A CN113807568B (zh) | 2021-08-11 | 2021-08-11 | 一种电力负荷预测方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921753.6A CN113807568B (zh) | 2021-08-11 | 2021-08-11 | 一种电力负荷预测方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807568A true CN113807568A (zh) | 2021-12-17 |
CN113807568B CN113807568B (zh) | 2022-12-06 |
Family
ID=78893473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110921753.6A Active CN113807568B (zh) | 2021-08-11 | 2021-08-11 | 一种电力负荷预测方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807568B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580758A (zh) * | 2022-03-09 | 2022-06-03 | 苗韧 | 一种多城市自动能源负荷预测方法及系统 |
CN115454988A (zh) * | 2022-09-27 | 2022-12-09 | 哈尔滨工业大学 | 基于随机森林网络的卫星电源系统缺失数据补全方法 |
CN117335409A (zh) * | 2023-10-26 | 2024-01-02 | 河北建投电力科技服务有限公司 | 基于人工智能的电力用户负荷预测系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376772A (zh) * | 2018-09-28 | 2019-02-22 | 武汉华喻燃能工程技术有限公司 | 一种基于神经网络模型的电力负荷组合预测方法 |
CN110135630A (zh) * | 2019-04-25 | 2019-08-16 | 武汉数澎科技有限公司 | 基于随机森林回归和多步寻优的短期负荷需求预测方法 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
-
2021
- 2021-08-11 CN CN202110921753.6A patent/CN113807568B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376772A (zh) * | 2018-09-28 | 2019-02-22 | 武汉华喻燃能工程技术有限公司 | 一种基于神经网络模型的电力负荷组合预测方法 |
CN110135630A (zh) * | 2019-04-25 | 2019-08-16 | 武汉数澎科技有限公司 | 基于随机森林回归和多步寻优的短期负荷需求预测方法 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
Non-Patent Citations (2)
Title |
---|
刘琪琛等: "基于Spark平台和并行随机森林回归算法的短期电力负荷预测", 《电力建设》 * |
许贤泽等: "基于Spark和梯度提升树模型的短期负荷预测", 《华中科技大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580758A (zh) * | 2022-03-09 | 2022-06-03 | 苗韧 | 一种多城市自动能源负荷预测方法及系统 |
CN114580758B (zh) * | 2022-03-09 | 2023-07-18 | 苗韧 | 一种多城市自动能源负荷预测方法及系统 |
CN115454988A (zh) * | 2022-09-27 | 2022-12-09 | 哈尔滨工业大学 | 基于随机森林网络的卫星电源系统缺失数据补全方法 |
CN117335409A (zh) * | 2023-10-26 | 2024-01-02 | 河北建投电力科技服务有限公司 | 基于人工智能的电力用户负荷预测系统 |
CN117335409B (zh) * | 2023-10-26 | 2024-04-19 | 河北建投电力科技服务有限公司 | 基于人工智能的电力用户负荷预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113807568B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807568B (zh) | 一种电力负荷预测方法、装置及终端设备 | |
Jiang et al. | Scenario generation for wind power using improved generative adversarial networks | |
US11042802B2 (en) | System and method for hierarchically building predictive analytic models on a dataset | |
CN110929029A (zh) | 一种基于图卷积神经网络的文本分类方法及系统 | |
CN115688913B (zh) | 一种云边端协同个性化联邦学习方法、系统、设备及介质 | |
CN108280236B (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN112699605B (zh) | 一种充电桩故障元件预测方法及系统 | |
CN111738477B (zh) | 基于深层特征组合的电网新能源消纳能力预测方法 | |
CN112330078B (zh) | 用电量预测方法、装置、计算机设备和存储介质 | |
CN111368887B (zh) | 雷雨天气预测模型的训练方法及雷雨天气预测方法 | |
CN113657421B (zh) | 卷积神经网络压缩方法和装置、图像分类方法和装置 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN110659667A (zh) | 图片分类模型训练方法、系统和计算机设备 | |
CN113361785A (zh) | 配电网短期负荷预测方法、装置、终端及存储介质 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN112926645A (zh) | 一种基于边缘计算的窃电检测方法 | |
CN116307059A (zh) | 配电网区域故障预测模型构建方法及装置、电子设备 | |
US20230326185A1 (en) | Object recognition method and apparatus, device, and storage medium | |
CN109344875B (zh) | 基于聚类分析的日风电出力时序生成方法及装置 | |
CN115687948A (zh) | 一种基于负荷曲线的电力专变用户无监督分类方法 | |
CN114461619A (zh) | 能源互联网多源数据融合方法、装置、终端及存储介质 | |
Cabanes et al. | On the use of Wasserstein metric in topological clustering of distributional data | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 | |
CN115577857B (zh) | 能源系统出力数据预测方法、装置和计算机设备 | |
CN117494947A (zh) | 基于机器学习的居民用电量预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |