CN112669173A - 一种基于多粒度特征和XGBoost模型的短期负荷预测方法 - Google Patents
一种基于多粒度特征和XGBoost模型的短期负荷预测方法 Download PDFInfo
- Publication number
- CN112669173A CN112669173A CN202110016829.0A CN202110016829A CN112669173A CN 112669173 A CN112669173 A CN 112669173A CN 202110016829 A CN202110016829 A CN 202110016829A CN 112669173 A CN112669173 A CN 112669173A
- Authority
- CN
- China
- Prior art keywords
- short
- term load
- granularity
- correlation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多粒度特征和XGBoost模型的短期负荷预测方法,包括以下步骤:采集待预测地区电力系统的历史短期负荷数据;分析历史短期负荷数据的波动影响因子,获取日期粒度信息和气象粒度信息;利用Pearson相关系数计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性;根据相关性选出相关性高的特征组合;通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷。本发明使用了Pearson相关系数选取了多粒度相关性较高的特征作为输入,降低了模型的复杂度,并使用XGBoost作为预测模型,因此能够处理大规模数据分类问题,具有准确性高、不易过拟合、可扩展性高。
Description
技术领域
本申请涉及负荷预测技术领域,尤其涉及一种基于多粒度特征和XGBoost模型的短期负荷预测方法。
背景技术
短期负荷预测以日负荷曲线为预测对象,是负荷预测的重要组成部分。短期负荷预测方法主要分为传统预测方法和智能预测方法两大类。其中,传统预测方法包括时间序列、回归分析、指数平滑等,其模型简单,对负荷数据的规律性要求较高,对多因素影响下的短期负荷预测适应性较差,精度往往不高。
智能预测方法包括神经网络、支持向量机、深度学习等,已成为目前主流的预测方法,相对于传统预测方法,能更好地处理高维度、非线性问题,且可有效利用电力大数据,充分挖掘历史信息,具有预测精度高、适用范围广的优点,改善了传统方法预测精度提高受限的问题。其中,神经网络法具有很强的记忆能力、非线性映射能力和自学习能力,在电力负荷预测中得到广泛应用。
但智能预测方法仍有不足之处:一方面,其对输入变量和模型参数要求较高,输入变量的冗余或缺失以及模型参数设置的不合理将影响预测结果的准确性;另一方面,算法往往强调数据整体的训练误差,容易出现过拟合现象,降低模型的泛化能力。
因此,本发明选取了模型结构和参数设置比较灵活的XGBoost算法结合从日期序列、气象数据两个粗粒度中选取相关性较高的细粒度,达到提高预测精度的目的。
发明内容
本申请提供了一种基于多粒度特征和XGBoost模型的短期负荷预测方法,以解决现有负荷预测方法准确性不高的问题。
本申请采用的技术方案如下:
本发明提供了一种基于多粒度特征和XGBoost模型的短期负荷预测方法,包括以下步骤:
采集待预测地区电力系统的历史短期负荷数据;
分析历史短期负荷数据的波动影响因子,获取日期粒度信息和气象粒度信息;
利用Pearson相关系数计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性,根据所述相关性选出相关性高的特征组合;
通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷。
进一步地,所述日期粒度信息包括:
日期、季节、节假日以及一年内的第几天、一周内的第几天、一个月内的第几天6个日期粒度信息。
进一步地,所述气象粒度信息包括:
某日的最高气温、最低气温、平均气温、温度等级、天气、风向、风速、平均相对湿度、大气压9个气象粒度信息。
进一步地,利用Pearson相关性计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性,包括:
利用Pearson相关系数计算出日期粒度信息和气象粒度信息的15维粒度特征与短期负荷的相关性,计算公式如下,
(1)和(2)式中,X为15维粒度特征,Y为短期负荷,cov(X,Y)表示X,Y的协方差;σX和σY分别是X,Y的标准差,ρ表示两个变量之间的相关系数,取值范围为[-1,1];当0.8≤ρ<1时,称为极强相关性;当0.6≤ρ<0.8时,称为强相关;当0.4≤ρ<0.6时,称为中等程度相关;当0.2≤ρ<0.4时,称为弱相关;当0.0≤ρ<0.2时,称为极弱相关或不相关。
进一步地,通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷,包括:
XGBoost的基学习器选择分类回归树,应用K个CART函数相加构成集成树模型来预测分类目标值,公式为:
(4)式中Γ={f(X)=ωq(X)},(ω∈RT,q:Rm→T)是分类回归树构成的函数空间,ω为叶子权重,q为每棵树的结构,即可以将数据映射到相应的叶子节点,T为叶子节点的数目,每个fk对应一颗独立树结构q和叶子权重w;
将学习模型的函数集合,XGBoost的学习目标函数为:
决策度复杂度Ω(f)计算方法为:
(6)式中f表示当前树的预测函数,T表示叶子节点的数目,γ表示控制叶子数量权重的参数,λ表示正则化系数;
考虑多颗树的提升模型的损失函数,目标函数为:
损失函数的求解部分相对比较复杂,因此进行泰勒级数展开,并保留至二阶项且移除常数项,即:
求问题的解,求导可以得出wj,带入函数进而可以得到目标函数的最优解如下:
进一步地,通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷之后,还包括:
通过对比所述预测短期负荷的结果与真实的短期负荷之间的误差大小,确定短期负荷预测方法的精确性。
进一步地,通过对比所述预测短期负荷的结果与真实的短期负荷之间的误差大小,确定短期负荷预测方法的精确性,包括:
通过均方根误差(RMSE)以及平均绝对百分比误差(MAPE)对所述预测短期负荷进行精确性评估。
进一步地,通过均方根误差(RMSE)以及平均绝对百分比误差(MAPE)对所述预测短期负荷进行精确性评估,包括:
通过均方根误差(RMSE)以及平均绝对百分比误差(MAPE)对所述预测短期负荷进行精确性评估,公式为:
采用本申请的技术方案的有益效果如下:
本发明的一种基于多粒度特征和XGBoost模型的短期负荷预测方法,使用了Pearson相关系数选取了多粒度相关性较高的特征作为输入,降低了模型的复杂度,并使用XGBoost作为预测模型,因此能够处理大规模数据分类问题,具有准确性高、不易过拟合、可扩展性高。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于多粒度特征和XGBoost模型的短期负荷预测方法的流程图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
参见图1,为一种基于多粒度特征和XGBoost模型的短期负荷预测方法的流程图。
本申请提供的一种基于多粒度特征和XGBoost模型的短期负荷预测方法,包括以下步骤:
S01:采集待预测地区电力系统的历史短期负荷数据;
S02:分析历史短期负荷数据的波动影响因子,获取日期粒度信息和气象粒度信息;
日期粒度信息包括:日期、季节、节假日以及一年内的第几天、一周内的第几天、一个月内的第几天6个日期粒度信息。
具体地,日期粒度信息:通常电力负荷曲线以日、周、年为时间尺度呈现一定的周期性。节假日与非节假日的负荷水平相比会有所下降,另外日期的变化对负荷也会有所影响,为了避免丢失一些潜在的影响因子,因此对日期信息进一步的细化分析,分析出日期所属的具体年、月、季节、节假日以及一年内的第几天、一周内的第几天、一个月内的第几天7个粒度信息,如表1所示。
表1日期粒度信息
气象粒度信息包括:某日的最高气温、最低气温、平均气温、温度等级、天气、风向、风速、平均相对湿度、大气压9个气象粒度信息。
具体地,气象粒度信息:空调、取暖设备等不少用电设备使用情况会与气象条件密切相关,地区整体负荷曲线也会受到气象因素的影响,因此进行短期负荷预测的气象因素包括温度、湿度、风速等。一般温度因素对负荷影响较为明显,夏季天气炎热,降温负荷将会提高地区负荷水平;冬季由于天气寒冷,取暖负荷也在一定程度上影响负荷特性,这也是负荷曲线呈现年周期性的主要原因。不同气象因素粒度信息如表2所示(以2020年1月1日某地区气象因素为例)。
表2气象粒度信息
S03:利用Pearson相关系数计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性,根据所述相关性选出相关性高的特征组合;
Person相关系数:该方法能够定量计算特征与变量之间的关系,能够衡量变量之间的相关性。
具体包括:
利用Pearson相关系数计算出日期粒度信息和气象粒度信息的15维粒度特征与短期负荷的相关性,计算公式如下,
(1)和(2)式中,X为15维粒度特征,Y为短期负荷,cov(X,Y)表示X,Y的协方差;σX和σY分别是X,Y的标准差,ρ表示两个变量之间的相关系数,取值范围为[-1,1];当0.8≤ρ<1时,称为极强相关性;当0.6≤ρ<0.8时,称为强相关;当0.4≤ρ<0.6时,称为中等程度相关;当0.2≤ρ<0.4时,称为弱相关;当0.0≤ρ<0.2时,称为极弱相关或不相关。
S04:通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷;
XGBoost是一种有多个基学习叠加为强化学习器的监督式算法,利用XGBoost(eXtreme Gradient Bossting)模型的基本原理对筛选出来相关性较高的特征来预测短时负荷,最后通过关注预测的结果与真实的短期负荷之间的误差大小,通过误差可以判断模型的好坏。
具体包括:
XGBoost的基学习器选择分类回归树,(classification and regression tree,CART),单棵树CART往往过于简单而不能有效地分类,应用K个CART函数相加构成集成树模型来预测分类目标值,公式为:
(4)式中Γ={f(X)=ωq(X)},(ω∈RT,q:Rm→T)是分类回归树构成的函数空间,ω为叶子权重,q为每棵树的结构,即可以将数据映射到相应的叶子节点,T为叶子节点的数目,每个fk对应一颗独立树结构q和叶子权重w;
将学习模型的函数集合,XGBoost的学习目标函数为:
决策度复杂度Ω(f)计算方法为:
(6)式中f表示当前树的预测函数,T表示叶子节点的数目,γ表示控制叶子数量权重的参数,λ表示正则化系数;
考虑多颗树的提升模型的损失函数,目标函数为:
损失函数的求解部分相对比较复杂,因此进行泰勒级数展开,并保留至二阶项且移除常数项,即:
求问题的解,求导可以得出wj,带入函数进而可以得到目标函数的最优解如下:
相关性分析:相关性分析(Correlation Analysis)用于掌握两个概率变量之间的相关性,而相关系数(Collation coefficient)用于定量计算两个概率变量之间的相关程度。通过用Pearson相关系数计算从日期和气象构建的15维粒度特征的相关性。结合实际情况,深入挖掘潜在的粒度特征,将相关性较高的特征筛选出来作为模型的输入,降低了特征维度,并可以提高短期负荷预测的精度。
S05:通过对比所述预测短期负荷的结果与真实的短期负荷之间的误差大小,确定短期负荷预测方法的精确性。
具体包括:
通过均方根误差(RMSE)以及平均绝对百分比误差(MAPE)对所述预测短期负荷进行精确性评估,公式为:
本发明引入特征工程的思想,构建多粒度特征并使用Pearson相关性系数选取最优特征来降低模型复杂度。采用XGBoost模型对短期负荷的预测提高了精度,增强了模型的鲁棒性与泛化能力,因而有着较为广阔的应用前景。
本发明使用了Pearson相关系数选取了多粒度相关性较高的特征作为输入,降低了模型的复杂度,并使用XGBoost作为预测模型,因此能够处理大规模数据分类问题,具有准确性高、不易过拟合、可扩展性高。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (8)
1.一种基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,包括以下步骤:
采集待预测地区电力系统的历史短期负荷数据;
分析历史短期负荷数据的波动影响因子,获取日期粒度信息和气象粒度信息;
利用Pearson相关系数计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性,根据所述相关性选出相关性高的特征组合;
通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷。
2.根据权利要求1所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,所述日期粒度信息包括:
日期、季节、节假日以及一年内的第几天、一周内的第几天、一个月内的第几天6个日期粒度信息。
3.根据权利要求1所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,所述气象粒度信息包括:
某日的最高气温、最低气温、平均气温、温度等级、天气、风向、风速、平均相对湿度、大气压9个气象粒度信息。
4.根据权利要求3所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,利用Pearson相关性计算出日期粒度信息和气象粒度信息的多维粒度与短期负荷的相关性,包括:
利用Pearson相关系数计算出日期粒度信息和气象粒度信息的15维粒度特征与短期负荷的相关性,计算公式如下,
(1)和(2)式中,X为15维粒度特征,Y为短期负荷,cov(X,Y)表示X,Y的协方差;σX和σY分别是X,Y的标准差,ρ表示两个变量之间的相关系数,取值范围为[-1,1];当0.8≤ρ<1时,称为极强相关性;当0.6≤ρ<0.8时,称为强相关;当0.4≤ρ<0.6时,称为中等程度相关;当0.2≤ρ<0.4时,称为弱相关;当0.0≤ρ<0.2时,称为极弱相关或不相关。
5.根据权利要求1所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷,包括:
XGBoost的基学习器选择分类回归树,应用K个CART函数相加构成集成树模型来预测分类目标值,公式为:
(4)式中Γ={f(X)=ωq(X)},(ω∈RT,q:Rm→T)是分类回归树构成的函数空间,ω为叶子权重,q为每棵树的结构,即可以将数据映射到相应的叶子节点,T为叶子节点的数目,每个fk对应一颗独立树结构q和叶子权重w;
将学习模型的函数集合,XGBoost的学习目标函数为:
决策度复杂度Ω(f)计算方法为:
(6)式中f表示当前树的预测函数,T表示叶子节点的数目,γ表示控制叶子数量权重的参数,λ表示正则化系数;
考虑多颗树的提升模型的损失函数,目标函数为:
损失函数的求解部分相对比较复杂,因此进行泰勒级数展开,并保留至二阶项且移除常数项,即:
求问题的解,求导可以得出wj,带入函数进而可以得到目标函数的最优解如下:
6.根据权利要求1所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,通过XGboost模型对筛选出来的相关性高的特征组合预测短期负荷之后,还包括:
通过对比所述预测短期负荷的结果与真实的短期负荷之间的误差大小,确定短期负荷预测方法的精确性。
7.根据权利要求6所述的基于多粒度特征和XGBoost模型的短期负荷预测方法,其特征在于,通过对比所述预测短期负荷的结果与真实的短期负荷之间的误差大小,确定短期负荷预测方法的精确性,包括:
通过均方根误差(RMSE)以及平均绝对百分比误差(MAPE)对所述预测短期负荷进行精确性评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110016829.0A CN112669173A (zh) | 2021-01-07 | 2021-01-07 | 一种基于多粒度特征和XGBoost模型的短期负荷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110016829.0A CN112669173A (zh) | 2021-01-07 | 2021-01-07 | 一种基于多粒度特征和XGBoost模型的短期负荷预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112669173A true CN112669173A (zh) | 2021-04-16 |
Family
ID=75413358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110016829.0A Pending CN112669173A (zh) | 2021-01-07 | 2021-01-07 | 一种基于多粒度特征和XGBoost模型的短期负荷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669173A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205207A (zh) * | 2021-04-19 | 2021-08-03 | 深圳供电局有限公司 | 一种基于XGBoost算法的用电短期负荷波动预测方法及系统 |
CN113379153A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 用于预测电力负荷的方法、预测模型训练方法及装置 |
CN113505923A (zh) * | 2021-07-08 | 2021-10-15 | 广西大学 | 一种地区电网短期负荷预测方法及系统 |
CN114548845A (zh) * | 2022-04-27 | 2022-05-27 | 北京智芯微电子科技有限公司 | 一种配网管理方法、装置及系统 |
CN117236531A (zh) * | 2023-11-16 | 2023-12-15 | 南京大全电气研究院有限公司 | 负荷预测方法及装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443417A (zh) * | 2019-07-05 | 2019-11-12 | 上海电力大学 | 基于小波变换的多模型集成负荷预测方法 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
CN112016734A (zh) * | 2020-04-07 | 2020-12-01 | 沈阳工业大学 | 基于lstm栈式自编码多模型荷预测方法及系统 |
-
2021
- 2021-01-07 CN CN202110016829.0A patent/CN112669173A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443417A (zh) * | 2019-07-05 | 2019-11-12 | 上海电力大学 | 基于小波变换的多模型集成负荷预测方法 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
CN112016734A (zh) * | 2020-04-07 | 2020-12-01 | 沈阳工业大学 | 基于lstm栈式自编码多模型荷预测方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205207A (zh) * | 2021-04-19 | 2021-08-03 | 深圳供电局有限公司 | 一种基于XGBoost算法的用电短期负荷波动预测方法及系统 |
CN113379153A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 用于预测电力负荷的方法、预测模型训练方法及装置 |
CN113505923A (zh) * | 2021-07-08 | 2021-10-15 | 广西大学 | 一种地区电网短期负荷预测方法及系统 |
CN114548845A (zh) * | 2022-04-27 | 2022-05-27 | 北京智芯微电子科技有限公司 | 一种配网管理方法、装置及系统 |
CN114548845B (zh) * | 2022-04-27 | 2022-07-12 | 北京智芯微电子科技有限公司 | 一种配网管理方法、装置及系统 |
CN117236531A (zh) * | 2023-11-16 | 2023-12-15 | 南京大全电气研究院有限公司 | 负荷预测方法及装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112669173A (zh) | 一种基于多粒度特征和XGBoost模型的短期负荷预测方法 | |
Yalcintas et al. | An energy benchmarking model based on artificial neural network method utilizing US Commercial Buildings Energy Consumption Survey (CBECS) database | |
CN108022001B (zh) | 基于pca和分位数回归森林的短期负荷概率密度预测方法 | |
CN106951976B (zh) | 一种基于模式分类的公交客流预测方法 | |
CN112288164B (zh) | 一种计及空间相关性和修正数值天气预报的风功率组合预测方法 | |
CN110909912A (zh) | 基于自适应误差反馈的园区电力系统净负荷组合预测方法 | |
CN109670670B (zh) | 一种划分季节属性的电力负荷拆分方法 | |
CN106600037B (zh) | 一种基于主成分分析的多参量辅助负荷预测方法 | |
CN112801388B (zh) | 一种基于非线性时间序列算法的电力负荷预测方法及系统 | |
CN113762387B (zh) | 一种基于混合模型预测的数据中心站多元负荷预测方法 | |
CN114117852B (zh) | 一种基于有限差分工作域划分的区域热负荷滚动预测方法 | |
CN112865093A (zh) | 一种短时电力负荷组合式预测方法 | |
CN116205508A (zh) | 一种分布式光伏发电异常诊断方法和系统 | |
Shafin | Machine learning approach to forecast average weather temperature of Bangladesh | |
CN114897264A (zh) | 一种基于迁移学习的小样本场景下光伏出力区间预测方法 | |
CN115310648A (zh) | 一种基于多气象变量模型识别的中长期风电功率组合预测方法 | |
CN110738363A (zh) | 一种光伏发电功率预测模型及其构建方法和应用 | |
CN116826745B (zh) | 一种电力系统背景下的分层分区短期负荷预测方法及系统 | |
CN117200223A (zh) | 日前电力负荷预测方法和装置 | |
CN111898822A (zh) | 基于多相关日场景生成的充电负荷区间预测方法 | |
CN114266593A (zh) | 一种基于kpca和线性回归的电力消费预测方法 | |
Euán et al. | Statistical analysis of multi‐day solar irradiance using a threshold time series model | |
Hwang | Daily electric load forecasting based on RBF neural network models | |
CN113837486A (zh) | 一种基于rnn-rbm的配网馈线长期负荷预测方法 | |
Ujjainia et al. | Crop Yield Prediction using Regression Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |