CN112163714B - 一种基于XGBoost的园区客户群体负荷释放算法 - Google Patents
一种基于XGBoost的园区客户群体负荷释放算法 Download PDFInfo
- Publication number
- CN112163714B CN112163714B CN202011100816.3A CN202011100816A CN112163714B CN 112163714 B CN112163714 B CN 112163714B CN 202011100816 A CN202011100816 A CN 202011100816A CN 112163714 B CN112163714 B CN 112163714B
- Authority
- CN
- China
- Prior art keywords
- load
- data
- model
- xgboost
- campus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 8
- 230000005611 electricity Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 18
- 230000008901 benefit Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- QBPPRVHXOZRESW-UHFFFAOYSA-N 1,4,7,10-tetraazacyclododecane Chemical compound C1CNCCNCCNCCN1 QBPPRVHXOZRESW-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于XGBoost的园区客户群体负荷释放算法,包括:获取园区客户群体一定时间内的负荷数据和相关特征数据,进行数据预处理;基于预处理后的负荷数据及特征,进行特征工程处理:进行初选,剔除相关性极强的特征,进行复选,选出其中比较重要的特征;基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量。本发明提供的基于XGBoost的园区客户群体负荷释放算法,将XGBoost算法引入负荷释放模型,引入多维特征并去除冗余或无关特征,提高了模型预测精度。
Description
技术领域
本发明涉及负荷释放模型技术领域,特别是涉及一种基于XGBoost的园区客户群体负荷释放算法。
背景技术
负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值。电力系统中负荷释放模型的建立可辅助决定新的发电机组的安装及电网的增容、改建等,对电力系统的安全性有着不可低估的作用,是制定电力发展规划的基础和重要工作之一。
目前,电力改革“有序向社会资本放开配售电市场”进入攻坚期,增量配电业务改革试点项目中,园区项目占了多数份额。园区集中了大批工业用电客户,具有需求集中、市场竞争激烈、用电规模庞大、负荷特性较稳定、负荷饱和度快等特点,对电网公司的价值重大。建立园区客户群体负荷释放模型,以此指导园区的电网规划建设,可以在保证园区电力供应的同时,减少改扩建的成本损失。对园区进行个性化的负荷释放曲线的预测,把握园区的负荷特性及其影响因素之间的关系,对电网建设和运行具有巨大的经济效益和社会效益。由于负荷释放模型的建立基于负荷预测,在已经主要应用的中长期负荷预测模型中。主要分为传统方法和人工智能方法,传统方法有时间序列、灰色预测等,人工智能方法包括预测方法包括神经网络、支持向量机(Support Vector Machine,SVM)等。这些方法主要对规律性比较强的负荷数据比较适用,而负荷释放是一个非线性问题,且受到众多特征属性以及未知因素的影响,缺乏周期性规律,波动性大,存在较大的模型预测误差,而基于XGBoost的园区客户群体负荷释放模型,能够提高预测准确率。
发明内容
本发明的目的是提供一种基于XGBoost的园区客户群体负荷释放算法,将XGBoost算法引入负荷释放模型,引入多维特征并去除冗余或无关特征,提高了模型预测精度。
为实现上述目的,本发明提供了如下方案:
一种基于XGBoost的园区客户群体负荷释放算法,包括以下步骤:
S1,获取园区客户群体一定时间内的负荷数据及相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征;
S2,基于预处理后的负荷数据及特征,进行特征工程处理:
对负荷释放的特征进行初选,计算各连续特征变量之间的相关系数,剔除相关性极强的特征,保留之一,以避免特征冗余;
通过主成分分析法对负荷释放的特征变量进行复选,选出其中比较重要的特征,比较重要的特征包括年份、月份、前一个月的负荷、前两个月的负荷,将所选出的比较重要的特征作为影响负荷释放模型的关键特征变量;
S3,建立负荷释放模型:基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量,即作为园区客户群体负荷释放模型输出。
可选的,所述步骤S3还包括:
通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合。
可选的,所述步骤S1,获取园区客户群体一定时间内的负荷数据及相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征,具体包括:
选取园区用户连续6年的负荷数据以及相关特征作为样本进行训练建模;
负荷数据异常识别、替换:按用户采用3σ法则,该用户历史5年月度最大负荷用m表示,对于超出该用户历史5年月度最大负荷±3σ取值的用m±3σ替代;
负荷数据、特征缺失填补:按用户采用历史同期值进行填补;
特征受偶然环境因素作用走势明显异常填补:分别按用户采用历史同期值替换;
将非数据性特征转换为数据,对类别性特征,如果是无序特征使用独热编码处理,如果是有序特征使用Label encoding。
可选的,所述步骤S2中,负荷释放的特征具体包括:
相关负荷衍生特征:包括本计量周期前的多期负荷数据;
相关天气:包括本计量周期内的温度、湿度、风力的多个特征;
用户基本信息:包括本计量周期内用户当前的户龄、行业、合同容量、用电类别的多个特征;
企业生产情况:包括本计量周期内用户生产计划、产值;
节假日:包括本计量周期内所含节假日天数。
可选的,所述步骤S3中,基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量,即作为园区客户群体负荷释放模型输出,具体包括:
所述计量周期为月;
上个月园区客户群体负荷设为yi-1;
可选的,所述步骤S3还包括,对园区客户群体负荷释放模型进行性能评估:
采用MSE和R2指标综合评估模型的性能,MSE反映模型的平均误差情况,其值越小,表示误差越小;R2反映模型拟合效果,其值越大,表示模型对数据拟合越好,其中:
根据本发明提供的具体实施例,本发明提供的基于XGBoost的园区客户群体负荷释放算法,公开了以下技术效果:
第一,园区客户群体负荷释放的定义,负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值,通过建立负荷释放模型来预测园区未来一年每个月的负荷增加量或减少量,有利于指导园区专项规划和电网投资建设时序;
第二,数据预处理中,由于XGBoost算法只能接受数据类型的输入,所以还需将非数据型特征转换为数据型特征,对于类别型特征的处理,如果是无序特征使用独热编码处理,如果是有序特征,使用Label encoding;
第三,对负荷释放的特征进行初选,避免特征冗余,并进行复选,选出其中比较重要的特征,作为影响负荷释放模型的关键特征变量;
第四,将XGBoost算法引入园区客户群体负荷释放模型,相比于其他Boosting集成学习算法,XGBoost的优势在于:(1)对损失函数引入正则化项,控制了模型复杂度,防止过拟合;(2)对损失函数进行二阶泰勒展开,提高了收敛速度与收敛精度;(3)引入列抽样,进一步提高计算速度并防止过拟合;
第五,模型训练中将经过特征工程选出的特征作为输入,将月负荷作为输出,通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合,向园区提供更为精确的预测值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于XGBoost的园区客户群体负荷释放算法的流程图;
图2为本发明实施例2014-2019年的负荷释放图;
图3为本发明实施例2016年的负荷释放图;
图4为本发明实施例影响负荷释放的特征重要性排名
图5为本发明实施例使用特征工程后得到的2014-2019年的负荷释放的真实值与预测值曲线;
图6为本发明实施例只考虑时序特征得到的2014-2019年的负荷释放的真实值与预测值曲线;
图7为本发明实施例2020年负荷释放预测图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于XGBoost的园区客户群体负荷释放算法,将XGBoost算法引入负荷释放模型,引入多维特征并去除冗余或无关特征,提高了模型预测精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的基于XGBoost的园区客户群体负荷释放算法,包括以下步骤:
S1,获取园区客户群体一定时间内的负荷数据及相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征;
S2,基于预处理后的负荷数据及特征,进行特征工程处理:
对负荷释放的特征进行初选,计算各连续特征变量之间的相关系数,剔除相关性极强的特征,保留之一,以避免特征冗余;
通过主成分分析法对负荷释放的特征变量进行复选,选出其中比较重要的特征,比较重要的特征包括年份、月份、前一个月的负荷、前两个月的负荷,将所选出的比较重要的特征作为影响负荷释放模型的关键特征变量;
S3,建立负荷释放模型:基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量,即作为园区客户群体负荷释放模型输出。
其中,所述步骤S3还包括:
通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合。
其中,由于负荷数据的获取受设备和人为因素影响可能存在坏数据,所以在建模前需识别和替换负荷异常数据,填补缺失数据。其相关特征由于受到偶然环境因素的影响,也同样会存在坏数据,也需进行识别、替换、填补操作。由于XGBoost算法只能接受数据类型的输入,所以还需将非数据型特征转换为数据型特征。因此,所述步骤S1,获取园区客户群体一定时间内的负荷数据及相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征,具体包括:
选取园区用户连续6年的负荷数据以及相关特征作为样本进行训练建模;
负荷数据异常识别、替换:按用户采用3σ法则,该用户历史5年月度最大负荷用m表示,对于超出该用户历史5年月度最大负荷±3σ取值的用m±3σ替代;
负荷数据、特征缺失填补:按用户采用历史同期值进行填补;
特征受偶然环境因素作用走势明显异常填补:分别按用户采用历史同期值替换;
将非数据性特征转换为数据,对类别性特征,如果是无序特征使用独热编码处理,如果是有序特征使用Label encoding。
其中,所述步骤S2中,负荷释放的特征具体包括:
相关负荷衍生特征:包括本计量周期前的m期负荷数据A={a1,a2,…,am};
相关天气:包括本计量周期内的温度、湿度、风力等n个特征B={b1,b2,…,bn};
用户基本信息:包括本计量周期内用户当前的户龄、行业、合同容量、用电类别等p个特征C={c1,c2,…,cp};
企业生产情况:包括本计量周期内用户生产计划、产值等q个特征D={d1,d2,…,dq};
节假日:包括本计量周期内所含节假日天数、是否春节等s个特征F={f1,f2,…,fs}。
所述步骤S3中,基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量,即作为园区客户群体负荷释放模型输出,具体包括:
所述计量周期为月;
上个月园区客户群体负荷设为yi-1;
其中,园区客户群体负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值。本发明所选的计量周期为月份。园区客户群体负荷释放模型是在负荷预测的基础上建立的,通过XGBoost算法预测出未来一年每个月的负荷值,然后在此基础上得到未来一年每个月的负荷释放量。
XGBoost是在梯度提升树(GBDT)基础上的改进算法,以线性分类器或者分类回归树(CART)作为基学习器的梯度提升(Gradientboosting)算法。
在XGBoost算法中,假设样本集合为D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),其中样本数目为n,样本维度为m。以K个加性函数构成的树融合模型的预测值为
式中:F={f(X)=ωq(X)}(q:Rm→T,ω∈RT)是回归树所在空间,其中q为样本到叶节点索引的映射;T为回归树的叶节点数目,每个fk都对应于独立的树结构q与叶节点权重ω。回归树的叶节点分数是连续的,用ωi表示每个叶节点的分数。对于给定的一个样本i,其预测值为即为其在每个树结构中相应叶节点的分数求和。
为了学习式(1)中的函数,XGBoost中构造正则目标函数(损失函数)为
式中:L为连续凸函数,度量预测值与实际值yi之间的差距;为惩罚项,用于控制模型复杂度,防止模型过拟合。式(2)模型中的参数无法通过传统欧式空间中的方法进行估计,因此采用加法方式,通过式(1)将预测值进行递推展开。具体而言,设为第t次迭代是第i个样本点的预测值,此时损失函数为
XGBoost对目标函数进行了二阶泰勒展开,提高了收敛速度。对式(3)二阶泰勒展开并去掉常数项,即
定义Ij={i|q(xi)=j}为叶子节点j上的样本点集合,带入正则化项,式(5)可改写为
考虑一个树结构为q(x),式(6)对ωj求导可得极值为
对应的损失函数值,即用于度量q(x)好坏的得分函数为
得分函数值越小代表当前树的结构越好,为寻求最优的树结构q,采用贪婪算法从一个叶节点开始迭代地向树结构添加分支。在回归树中,一般都采用二分裂的方式,对将当前某叶节点向下进一步分为左右两个叶节点。设分裂后左右节点所包含的样本点分别为IL和IR,I=IL∪IR,则根据式(7)可得分裂后的损失减少为
由此便可判断当前树结构是否需要进一步分裂。
XGBoost区别于其他boosting算法的特点是,在行抽样的基础上(即随机抽取一定比例的样本点进行当次学习),XGBoost进一步添加了列抽样,即在每次迭代学习中,考虑了对样本的特征进行抽样。这种方式能够进一步防止过拟合,且提高了计算速度。
此外,所述步骤S3还包括,对园区客户群体负荷释放模型进行性能评估:
采用MSE和R2指标综合评估模型的性能,MSE反映模型的平均误差情况,其值越小,表示误差越小;R2反映模型拟合效果,其值越大,表示模型对数据拟合越好,其中:
本发明实施例以某园区5个工业用户2014~2019年的月度负荷数据为例进行负荷释放模型的训练,将经过特征工程选出的特征作为XGBoost算法的输入,因为特征初选时本计量周期内所含节假日天数、客户生产计划、产值与前一个月的负荷相关性达到0.91,保留前一个月的负荷,在特征复选时选出的比较重要的特征为年份、月份、前一个月的负荷、前两个月的负荷,所以输入为年份、月份、前一个月的负荷以及前两个月的负荷数据,将本月负荷作为XGBoost算法的输出,然后在此基础上得到负荷释放量。将数据划分为训练集和测试集,训练集为90%,测试集为10%,定义模型学习目标函数、回归树生成参数等构造基于XGBoost的负荷释放模型。选择线性模型作为目标函数,XGBoost回归树的树的数目、学习率、最大深度等参数均会影响负荷释放精度,通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合。经过训练后得到树的棵数为85,最大深度为2,学习率为0.4,在测试集上MSE=13.47,R2=0.75。预测效果实验软件为基于python3.7开发环境的XGBoost以及sklearn扩展包。
如图2至图6所示,为园区5个工业用户2014~2019年的月度负荷数据通过数据预处理、特征工程、选择模型参数、模型评估,得到园区负荷的释放曲线,以下是对负荷释放曲线的分析。
图2为2014-2019年的负荷释放图,由图2可知前3年负荷变化比较稳定,有增有减,变化幅度比较小,主要是在-10KMW~10KMW之间,说明这三年里园区工业用户发展比较稳定,有增容也有减容。后3年负荷每个月的变化幅度比较大,整体负荷呈逐年上升趋势,这说明园区工业用户增容和减容的幅度比较大,但整体来说增容大于减容,呈好的发展态势。其中在第四年的7月和8月负荷变化幅度最大,说明这两个月可能有特殊情况的影响。
图3为2016年的负荷释放图,7月和9月负荷释放量的绝对值比较大,其他月份负荷释放量的绝对值相差不大。其中2月、6月、9月、10月负荷释放值为负说明这几个月用电量减少,9月份减少的最多,可能受天气或其他重大事项的影响。4月、8月、11月负荷释放量为正,说明这几个月用电量增加,可能跟企业效益有关系。7月~11月之间负荷释放正负变化频繁说明企业效益不稳定。
图4为影响负荷释放的特征重要性排名,由排名可知,前一个月的负荷、前两个月的负荷相对得分高,说明这两个特征相对来说比较重要,对负荷释放的预测比较重要。
图5为使用特征工程后得到的2014-2019年的负荷释放的真实值与预测值曲线,在测试集上MSE=13.47,R2=0.75。通过负荷释放模型得到的负荷释放曲线的整体效果良好。但是存在某月份过拟合的情况,但并不影响负荷释放的整体效果。图6为只考虑时序特征得到的2014-2019年的负荷释放的真实值与预测值曲线,在测试集上MSE=30.89,R2=0.42,所以使用特征工程后精度更高。
如图7所示,基于2014-2019年的负荷数据,利用上述算法进行2020年负荷释放预测,该预测负荷释放曲线符合变化趋势,通过对未来负荷释放曲线的预测可以指导园区的规划和建设。
本发明提供的基于XGBoost的园区客户群体负荷释放算法,首先,在数据预处理中,由于XGBoost算法只能接受数据类型的输入,所以还需将非数据型特征转换为数据型特征,对于类别型特征的处理,如果是无序特征使用独热编码处理,如果是有序特征,使用Label encoding;之后,对负荷释放的特征进行初选,避免特征冗余,并进行复选,选出其中比较重要的特征,作为影响负荷释放模型的关键特征变量;最后,将XGBoost算法引入园区客户群体负荷释放模型,相比于其他Boosting集成学习算法,XGBoost的优势在于:(1)对损失函数引入正则化项,控制了模型复杂度,防止过拟合;(2)对损失函数进行二阶泰勒展开,提高了收敛速度与收敛精度;(3)引入列抽样,进一步提高计算速度并防止过拟合,其中,模型训练中将经过特征工程选出的特征作为输入,将月负荷作为输出,通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合,向园区提供更为精确的预测值。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于XGBoost的园区客户群体负荷释放算法,其特征在于,包括以下步骤:
S1,获取园区客户群体一定时间内的负荷数据和相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征;
S2,基于预处理后的负荷数据及特征,进行特征工程处理:
对负荷释放的特征进行初选,计算各连续特征变量之间的相关系数,剔除相关性极强的特征,保留之一,以避免特征冗余;
通过主成分分析法对负荷释放的特征变量进行复选,选出其中比较重要的特征,比较重要的特征包括年份、月份、前一个月的负荷、前两个月的负荷,将所选出的比较重要的特征作为影响负荷释放模型的关键特征变量;
S3,建立负荷释放模型,基于复选出的特征变量,采用XGBoost算法预测本计量周期园区客户群体负荷,将上一个计量周期园区客户群体负荷作为输入,然后与本计量周期园区客户群体负荷作差,得到本计量周期园区客户群体负荷释放量,即作为园区客户群体负荷释放模型输出。
2.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法,其特征在于,所述步骤S3还包括:
通过对XGBoost各参数进行交叉验证测试,调整优化模型参数,确定模型精度最高的参数组合。
3.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法,其特征在于,所述步骤S1,获取园区客户群体一定时间内的负荷数据及相关特征数据,对负荷数据及其相关的特征进行异常识别填补、独热编码,并将非数据型特征转换为数据型特征,得到预处理后的负荷数据及特征,具体包括:
选取园区用户连续6年的负荷数据以及相关特征作为样本进行训练建模;
负荷数据异常识别、替换:按用户采用3σ法则,该用户历史5年月度最大负荷用m表示,对于超出该用户历史5年月度最大负荷±3σ取值的用m±3σ替代;
负荷数据、特征缺失填补:按用户采用历史同期值进行填补;
特征受偶然环境因素作用走势明显异常填补:分别按用户采用历史同期值替换;
将非数据性特征转换为数据,对类别性特征,如果是无序特征使用独热编码处理,如果是有序特征使用Label encoding。
4.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法,其特征在于,所述步骤S2中,负荷释放的特征具体包括:
相关负荷衍生特征:包括本计量周期前的多期负荷数据;
相关天气:包括本计量周期内的温度、湿度、风力的多个特征;
用户基本信息:包括本计量周期内用户当前的户龄、行业、合同容量、用电类别的多个特征;
企业生产情况:包括本计量周期内用户生产计划、产值;
节假日:包括本计量周期内所含节假日天数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100816.3A CN112163714B (zh) | 2020-10-15 | 2020-10-15 | 一种基于XGBoost的园区客户群体负荷释放算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011100816.3A CN112163714B (zh) | 2020-10-15 | 2020-10-15 | 一种基于XGBoost的园区客户群体负荷释放算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163714A CN112163714A (zh) | 2021-01-01 |
CN112163714B true CN112163714B (zh) | 2022-11-25 |
Family
ID=73866974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100816.3A Active CN112163714B (zh) | 2020-10-15 | 2020-10-15 | 一种基于XGBoost的园区客户群体负荷释放算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163714B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858674A (zh) * | 2018-12-27 | 2019-06-07 | 国网浙江省电力有限公司 | 基于XGBoost算法的月度负荷预测方法 |
CN109711621A (zh) * | 2018-12-27 | 2019-05-03 | 浙江华云信息科技有限公司 | 基于判别分析和支持向量机结合的工业园区负荷预测方法 |
CN110909912B (zh) * | 2019-10-08 | 2022-08-09 | 西安交通大学 | 基于自适应误差反馈的园区电力系统净负荷组合预测方法 |
-
2020
- 2020-10-15 CN CN202011100816.3A patent/CN112163714B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112163714A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858674A (zh) | 基于XGBoost算法的月度负荷预测方法 | |
CN107133695A (zh) | 一种风电功率预测方法和系统 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN114862032B (zh) | 一种基于XGBoost-LSTM的电网负荷预测方法及装置 | |
CN114065605A (zh) | 一种智能电能表运行状态检测评估系统和方法 | |
CN113449257A (zh) | 配电网线损的预测方法、控制装置、及存储介质 | |
CN113011680A (zh) | 一种电力负荷预测方法及系统 | |
CN112308305B (zh) | 一种基于多模型综合的售电量预测方法 | |
CN114580545A (zh) | 一种基于融合模型的风电机组齿轮箱故障预警方法 | |
CN112990587A (zh) | 一种对台区用电进行精准预测的方法及系统、设备、介质 | |
CN112150304A (zh) | 电网运行状态轨迹稳定性预判方法、系统及存储介质 | |
CN111932044A (zh) | 一种基于机器学习的钢铁产品价格预测系统和方法 | |
Vahabi et al. | A sales forecasting model in automotive industry using Adaptive Neuro-Fuzzy Inference System (ANFIS) and Genetic Algorithm (GA) | |
CN111008790A (zh) | 一种水电站群发电调度规则提取方法 | |
CN114548494B (zh) | 一种可视化造价数据预测智能分析系统 | |
CN118014137A (zh) | 一种基于数据驱动的换电站换电需求预测方法及系统 | |
CN116628534A (zh) | 基于电力大数据的园区用能动态画像划分方法 | |
CN114971090A (zh) | 一种电供暖负荷预测方法、系统、设备和介质 | |
CN105894138A (zh) | 一种制造业发货量的最优加权组合预测方法 | |
CN112163714B (zh) | 一种基于XGBoost的园区客户群体负荷释放算法 | |
Gao et al. | Establishment of Economic Forecasting Model of High‐tech Industry Based on Genetic Optimization Neural Network | |
CN116629918A (zh) | 一种基于跨境电商的用户消费预测方法及系统 | |
CN111061708A (zh) | 一种基于lstm神经网络的电能量预测与修复方法 | |
CN112581311B (zh) | 一种多风电场聚合后出力长期波动特性预测方法及系统 | |
Napitupulu | Artificial neural network application in gross domestic product forecasting: an Indonesia case |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |