CN112766569A - 融合高频影响因素的集成型用电量增长预测方法及装置 - Google Patents
融合高频影响因素的集成型用电量增长预测方法及装置 Download PDFInfo
- Publication number
- CN112766569A CN112766569A CN202110066227.6A CN202110066227A CN112766569A CN 112766569 A CN112766569 A CN 112766569A CN 202110066227 A CN202110066227 A CN 202110066227A CN 112766569 A CN112766569 A CN 112766569A
- Authority
- CN
- China
- Prior art keywords
- factors
- power consumption
- prediction
- model
- influence factors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims description 23
- 230000005611 electricity Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 230000000630 rising effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001556 precipitation Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 238000003066 decision tree Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 101000630267 Homo sapiens Probable glutamate-tRNA ligase, mitochondrial Proteins 0.000 description 4
- 102100026125 Probable glutamate-tRNA ligase, mitochondrial Human genes 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000011580 syndromic disease Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013277 forecasting method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种融合高频影响因素的集成型用电量增长预测方法及装置,所述方法包括:S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
Description
技术领域
本发明涉及电力系统负荷分析技术领域,尤其是涉及一种融合高频影响因素的集成型用电量增长预测方法及装置。
背景技术
电力是社会发展的基础能源,也是整个国家能源战略的核心要素。用电量增长的准确预测是电力系统可靠运行和高效运作的重要保障。近年来,伴随国内外经济社会形势的深刻变化,我国各地产业结构优化调整,新旧动能转化加速推进,未来用电量增长将受到更多外部因素影响,增长趋势的不确定性将增大。为适应快速变化的经济社会环境,需要充分分析影响用电量增长的主要因素,建立科学的分析预测模型,准确预判客户用电量增长趋势。
目前,对于用电量增长预测模型,主要是基于时间、历史用电量、气象等影响因素构建单一的时间序列模型,模型预测精度提升具有一定的局限性,需要统筹优化。用电量增长是受到多维因素共同作用的结果,需要综合考虑各类潜在影响因素。以往研究仅考虑时间因素、用电量增长历史情况和气象因素,忽略了宏观经济发展、产业结构调整、能源结构变动等因素对用电量增长变化的影响,因缺失重要解释变量导致预测模型准确性不高。同时,部分影响因素与用电量增长具备非线性关系,需要准确挖掘变量间非线性关系。以往研究仅考虑采用单一模型构建线性或非线性时间序列模型,用电量增长预测仅基于一次建模结果,单一模型拟合或泛化能力不足将导致预测模型准确性不高。
发明内容
本发明的目的在于提供一种融合高频影响因素的集成型用电量增长预测方法及装置,旨在解决上述问题。
本发明提供一种融合高频影响因素的集成型用电量增长预测方法,包括:
S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;
S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;
S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
本发明提供一种融合高频影响因素的集成型用电量增长预测装置,包括:
因素选取模块:用于选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;
模型构建模块:用于基于所述影响因素构建多个XGBoost模型作为单一预测模型;
预测结果集成模块:用于多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
本发明实施例还提供一种融合高频影响因素的集成型用电量增长预测装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述融合高频影响因素的集成型用电量增长预测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述融合高频影响因素的集成型用电量增长预测方法的步骤。
采用本发明实施例,拓展了电量增长预测的影响因素维度,增加了电力调度的科学性,将多个单一模型预测结果进行集成,解决了单一用电量增长预测模型拟合或泛化能力不足的问题,提升了预测模型的稳定性和准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种融合高频影响因素的集成型用电量增长预测方法流程图;
图2是本发明实施例的单一预测模型构建过程示意图;
图3是本发明实施例中集成型用电量增长预测模型对测试集用电量的预测值和测试集用电量真实值的线性对比图;
图4是本发明装置实施例一的融合高频影响因素的集成型用电量增长预测装置的示意图;
图5是本发明装置实施例二的融合高频影响因素的集成型用电量增长预测装置的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种融合高频影响因素的集成型用电量增长预测方法,图1是本发明实施例的融合高频影响因素的集成型用电量增长预测方法流程图,如图1所示,根据本发明实施例的融合高频影响因素的集成型用电量增长预测方法具体包括:
S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素。
具体的,步骤S1所述方法进一步包括:
S101.结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;
其中,所述常规因素包括:上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日,所述宏观因素包括:GDP、上证指数收盘价、上证指数涨跌。
S102.构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;
计算各影响因素的重要性指标的方法具体为:
由于在第t轮迭代时t-1轮的预测结果固定,模型目标函数设定仅需考虑预测函数ft(xi),求解模型参数时最小化如公式2目标函数:
S(t)(β)=L(β)+D(ft)+C 公式2;
其中,β为需要求解的模型参数,L(β)为测度模型拟合程度的损失函数,D(ft)为测度模型复杂程度的正则化项,C为常数项。L(β)和D(ft)计算过程分别如公式3、公式4所示:
其中,公式3中,l(·)是测度样本预测准确性的损失函数。公式4中,T是决策树叶子节点数,ωj是叶子节点对应的预测结果,γ和λ是对应的调整系数。将损失函数泰勒展开至二次项,利用贪婪算法可以求解模型的参数。
XGBoost模型是为改进梯度提升决策树模型提出的一种集成学习模型,该算法中的决策树具有前后关联,当前预测以上一轮的预测误差为基础,利用各轮预测误差迭代构建模型,可以提升预测的准确性。
在模型构建过程中会得到评估自变量重要性三种指标:
①增益(Gain),该指标计算使用每个自变量作为树划分属性时,损失平均的降低量。
②覆盖度(Cover),该指标计算每个自变量作为划分属性时,决定每个树中观测值的叶节点数量。
③频率(Frequency),该指标计算每个自变量在所有树中用于划分属性的次数。
上述三个自变量重要性测度指标,均为指标值越大,自变量重要性越高。实践中,为便于不同样本组合的自变量重要性比较,往往将上述指标进行相对数量处理,例如对增益进行相对数量处理时,如公式5:
对覆盖度和频率进行相对数量处理过程与公式5所示过程相同。对所述三种重要性测度指标值进行相对处理后,每种影响因素的同一种指标值相加等于1,便于观察三种重要性指标下各影响因素的相对重要性。
S103.对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素;
具体的,当三个指标确定的结果不一致时,删除三个指标均排序靠后的指标,避免遗漏重要影响因素。
S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;
具体的,假定建模样本容量为N,通过可放回随机抽样抽取容量为N的训练集样本S1。利用训练集样本S1,以用电量为因变量Y,以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1,重复上述可放回随机抽样14次,依次分别获得训练集样本S2,…,S15,再分别利用训练集样本构建XGBoost模型M2,…,M15。因为采取的抽样方式为可放回随机抽样,所以训练集样本S1,…,S15中可能会有重复的样本。
S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
具体的,利用已构建的15个预测模型M1,…,M15对原始建模样本的用电量Y进行预测,得到15组预测结果利用真实值Y与估计值计算均方误差(MSE),得到各模型的均方误差值MSE1,…,MSE15,如公式6所示:
其中,N为建模样本容量,利用均方误差值对各模型的预测结果进行集成,如公式7所示:
则对于一个新的待预测数据,分别利用已构建的15个预测模型M1,…,M15进行预测,得到15组新的预测值,再利用公式7进行加权求和即可得到最终的预测结果。
下面以某地区高压用户用电量增长短期预测为例,展示主要计算过程,进一步解释方法实施例所述方法内容:
用某地区高压用户2018年1月1日-12月31日的日度用电量历史数据测算2019年1月1日-7月31日的日度用电量,首先从常规因素和宏观因素两个角度,选取上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日、GDP、上证指数收盘价、上证指数涨跌幅作为备选变量。数据情况如表1所示:
表1
构建XGBoost模型,计算各影响因素的重要性指标,并对指标值进行相对数量处理,结果如表2所示:
表2
根据对各影响因素重要性指标的判断,选取重要性指标相对值大于0.1的变量作为最终建模所需的影响因素,即去年同期用电量、最高气温、最低气温、日照时数、是否假日、GDP、上证指数收盘价、上证指数涨跌幅。
通过可放回随机抽样抽取15组容量为N=365(2018年1月1日-12月31日)的训练集样本S1,…,S15。
利用各组训练集样本,以用电量为因变量Y,以去年同期用电量、最高气温、最低气温、日照时数、是否假日、GDP、上证指数收盘价、上证指数涨跌幅为自变量X构建15个XGBoost模型M1,…,M15。
分别利用已构建的15个预测模型M1,…,M15对原始建模样本的用电量Y进行预测,得到15组预测结果利用真实值Y与估计值计算均方误差MSE1,…,MSE15,进一步计算各模型的相对权重,结果如表3所示:
表3
基于上述结果,以2019年1月1日-7月31日的日度数据为测试集,分别利用预测模型M1,…,M15对测试集样本的用电量进行预测,并利用权重ω将各模型的结果进行加权平均,得到最终预测结果,如图3所示。
经过测试,采用平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)评价模型的预测效果,MAE和MAPE评价指标的形式如公式9和公式10所示:
将平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)评价模型的预测效果进行对比,如表4所示:
表4
可以看出,在平均绝对误差上,集成模型的结果优于60%的单一模型;在均方误差上,集成模型的结果优于80%的单一模型;在平均绝对百分比误差上,集成模型的结果优于60%的单一模型。
综上所述,本发明从供电公司电力调度实际需求出发,引入高频性的上证指数收盘价和涨跌幅反映地区经济社的发展情况,在综合研判各类影响因素重要程度的基础上,通过随机抽样的方法获得多个训练集样本,构建多个用电量增长预测模型并将预测结果进行集成,形成融合高频影响因素的集成型用电量增长预测模型,从而提升用电量增长短期预测的准确性和有效性。
装置实施例一
根据本发明实施例,提供了一种融合高频影响因素的集成型用电量增长预测装置,图4是本发明装置实施例一的融合高频影响因素的集成型用电量增长预测装置的示意图,如图4所示,根据本发明实施例的融合高频影响因素的集成型用电量增长预测装置具体包括:
因素选取模块40:用于选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;
因素选取模块40具体用于:结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。
模型构建模块42:用于基于所述影响因素构建多个XGBoost模型作为单一预测模型;
模型构建模块42具体用于:通过可放回随机抽样从容量为N的建模样本中抽取训练集样本S1,利用训练集样本S1,以用电量为因变量Y,以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1作为单一预测模型。
预测结果集成模块44:用于多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果;
本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例二
本发明实施例提供一种融合高频影响因素的集成型用电量增长预测装置,如图5所示,包括:存储器50、处理器52及存储在所述存储器50上并可在所述处理器25上运行的计算机程序,所述计算机程序被所述处理器52执行时实现如下方法步骤:
S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素。
具体的,步骤S1所述方法进一步包括:
S101.结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;
其中,所述常规因素包括:上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日,所述宏观因素包括:GDP、上证指数收盘价、上证指数涨跌。
S102.构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;
计算各影响因素的重要性指标的方法具体为:
由于在第t轮迭代时t-1轮的预测结果固定,模型目标函数设定仅需考虑预测函数ft(xi),求解模型参数时最小化如公式2目标函数:
S(t)(β)=L(β)+D(ft)+C 公式2;
其中,β为需要求解的模型参数,L(β)为测度模型拟合程度的损失函数,D(ft)为测度模型复杂程度的正则化项,C为常数项。L(β)和D(ft)计算过程分别如公式3、公式4所示:
其中,公式3中,l(·)是测度样本预测准确性的损失函数。公式4中,T是决策树叶子节点数,ωj是叶子节点对应的预测结果,γ和λ是对应的调整系数。将损失函数泰勒展开至二次项,利用贪婪算法可以求解模型的参数。
XGBoost模型是为改进梯度提升决策树模型提出的一种集成学习模型,该算法中的决策树具有前后关联,当前预测以上一轮的预测误差为基础,利用各轮预测误差迭代构建模型,可以提升预测的准确性。
在模型构建过程中会得到评估自变量重要性三种指标:
①增益(Gain),该指标计算使用每个自变量作为树划分属性时,损失平均的降低量。
②覆盖度(Cover),该指标计算每个自变量作为划分属性时,决定每个树中观测值的叶节点数量。
③频率(Frequency),该指标计算每个自变量在所有树中用于划分属性的次数。
上述三个自变量重要性测度指标,均为指标值越大,自变量重要性越高。实践中,为便于不同样本组合的自变量重要性比较,往往将上述指标进行相对数量处理,例如对增益进行相对数量处理时,如公式5:
对覆盖度和频率进行相对数量处理过程与公式5所示过程相同。对所述三种重要性测度指标值进行相对处理后,每种影响因素的同一种指标值相加等于1,便于观察三种重要性指标下各影响因素的相对重要性。
S103.对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素;
具体的,当三个指标确定的结果不一致时,删除三个指标均排序靠后的指标,避免遗漏重要影响因素。
S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;
具体的,假定建模样本容量为N,通过可放回随机抽样抽取容量为N的训练集样本S1。利用训练集样本S1,以用电量为因变量Y,以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1,重复上述可放回随机抽样14次,依次分别获得训练集样本S2,…,S15,再分别利用训练集样本构建XGBoost模型M2,…,M15。因为采取的抽样方式为可放回随机抽样,所以训练集样本S1,…,S15中可能会有重复的样本。
S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
具体的,利用已构建的15个预测模型M1,…,M15对原始建模样本的用电量Y进行预测,得到15组预测结果利用真实值Y与估计值计算均方误差(MSE),得到各模型的均方误差值MSE1,…,MSE15,如公式6所示:
其中,N为建模样本容量,利用均方误差值对各模型的预测结果进行集成,如公式7所示:
则对于一个新的待预测数据,分别利用已构建的15个预测模型M1,…,M15进行预测,得到15组新的预测值,再利用公式7进行加权求和即可得到最终的预测结果。
装置实施例三
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器52执行时实现如下方法步骤:
S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素。
具体的,步骤S1所述方法进一步包括:
S101.结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;
其中,所述常规因素包括:上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日,所述宏观因素包括:GDP、上证指数收盘价、上证指数涨跌。
S102.构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;
计算各影响因素的重要性指标的方法具体为:
由于在第t轮迭代时t-1轮的预测结果固定,模型目标函数设定仅需考虑预测函数ft(xi),求解模型参数时最小化如公式2目标函数:
S(t)(β)=L(β)+D(ft)+C 公式2;
其中,β为需要求解的模型参数,L(β)为测度模型拟合程度的损失函数,D(ft)为测度模型复杂程度的正则化项,C为常数项。L(β)和D(ft)计算过程分别如公式3、公式4所示:
其中,公式3中,l(·)是测度样本预测准确性的损失函数。公式4中,T是决策树叶子节点数,ωj是叶子节点对应的预测结果,γ和λ是对应的调整系数。将损失函数泰勒展开至二次项,利用贪婪算法可以求解模型的参数。
XGBoost模型是为改进梯度提升决策树模型提出的一种集成学习模型,该算法中的决策树具有前后关联,当前预测以上一轮的预测误差为基础,利用各轮预测误差迭代构建模型,可以提升预测的准确性。
在模型构建过程中会得到评估自变量重要性三种指标:
①增益(Gain),该指标计算使用每个自变量作为树划分属性时,损失平均的降低量。
②覆盖度(Cover),该指标计算每个自变量作为划分属性时,决定每个树中观测值的叶节点数量。
③频率(Frequency),该指标计算每个自变量在所有树中用于划分属性的次数。
上述三个自变量重要性测度指标,均为指标值越大,自变量重要性越高。实践中,为便于不同样本组合的自变量重要性比较,往往将上述指标进行相对数量处理,例如对增益进行相对数量处理时,如公式5:
对覆盖度和频率进行相对数量处理过程与公式5所示过程相同。对所述三种重要性测度指标值进行相对处理后,每种影响因素的同一种指标值相加等于1,便于观察三种重要性指标下各影响因素的相对重要性。
S103.对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素;
具体的,当三个指标确定的结果不一致时,删除三个指标均排序靠后的指标,避免遗漏重要影响因素。
S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;
具体的,假定建模样本容量为N,通过可放回随机抽样抽取容量为N的训练集样本S1。利用训练集样本S1,以用电量为因变量Y,以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1,重复上述可放回随机抽样14次,依次分别获得训练集样本S2,…,S15,再分别利用训练集样本构建XGBoost模型M2,…,M15。因为采取的抽样方式为可放回随机抽样,所以训练集样本S1,…,S15中可能会有重复的样本。
S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
具体的,利用已构建的15个预测模型M1,…,M15对原始建模样本的用电量Y进行预测,得到15组预测结果利用真实值Y与估计值计算均方误差(MSE),得到各模型的均方误差值MSE1,…,MSE15,如公式6所示:
其中,N为建模样本容量,利用均方误差值对各模型的预测结果进行集成,如公式7所示:
则对于一个新的待预测数据,分别利用已构建的15个预测模型M1,…,M15进行预测,得到15组新的预测值,再利用公式7进行加权求和即可得到最终的预测结果。
综上所述,本发明从供电公司电力调度实际需求出发,引入高频性的上证指数收盘价和涨跌幅反映地区经济社的发展情况,在综合研判各类影响因素重要程度的基础上,通过随机抽样的方法获得多个训练集样本,构建多个用电量增长预测模型并将预测结果进行集成,形成融合高频影响因素的集成型用电量增长预测模型,从而提升用电量增长短期预测的准确性和有效性。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种融合高频影响因素的集成型用电量增长预测方法,其特征在于,包括以下步骤:
S1.选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;
S2.基于步骤S1得到的所述影响因素构建多个XGBoost模型作为单一预测模型;
S3.分别用步骤S2中构建的多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
2.根据权利要求1所述的一种融合高频影响因素的集成型用电量增长预测方法,其特征在于,步骤S1所述方法具体包括:
S101.结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;
S102.构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;
S103.对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。
3.根据权利要求2所述的一种融合高频影响因素的集成型用电量增长预测方法,其特征在于,
步骤S101中,所述常规因素包括:上年同期用电量、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、降水量、日照时数、是否周六日、是否假日,所述宏观因素包括:GDP、上证指数收盘价、上证指数涨跌。
4.根据权利要求2所述的一种融合高频影响因素的集成型用电量增长预测方法,其特征在于,步骤S102中所述重要性指标有三种,分别为:增益Gain、覆盖度Cover和频率Frequency。
5.根据权利要求1所述的一种融合高频影响因素的集成型用电量增长预测方法,其特征在于,步骤S2所述单一预测模型的具体构建方法为:通过可放回随机抽样从容量为N的建模样本中抽取训练集样本S1,利用训练集样本S1,以用电量为因变量Y,以基于重要性测度指标选定的影响因素为自变量X构建XGBoost模型M1作为单一预测模型。
6.一种融合高频影响因素的集成型用电量增长预测模型装置,其特征在于,包括:
因素选取模块:用于选取可能影响用电量增长的因素作为备选影响因素,基于所述备选影响因素构建XGBoost模型,测算各个备选影响因素对用电量增长的重要性,确定构建预测模型使用的影响因素;
模型构建模块:用于基于所述影响因素构建多个XGBoost模型作为单一预测模型;
预测结果集成模块:用于多个所述单一预测模型对所述用电量进行预测,得到多组预测值,利用真实用电量与所述预测值计算均方误差值,利用所述均方误差值对多个所述单一预测模型的预测值进行集成,得到最终的预测结果。
7.根据权利要求5所述的一种融合高频影响因素的集成型用电量增长预测装置,其特征在于,因素选取模块具体用于:
结合供电公司电力调度实际需求,从常规因素和宏观因素两个角度确定所述备选影响因素;
构建以用电量为因变量,以所述常规因素和宏观因素为自变量的XGBoost模型,计算出各影响因素的重要性指标,并对所述重要性指标的值进行相对数量处理;
对所述各影响因素的重要性指标进行由大到小的排序,根据建模需要选取所述重要性指标排名靠前的若干影响因素作为最终建模所需影响因素。
8.根据权利要求5所述的一种融合高频影响因素的集成型用电量增长预测装置,其特征在于,模型构建模块具体用于:以基于重要性测度指标选定的影响因素为自变量X1,以用电量为因变量Y1,利用通过可放回随机抽样抽取容量为N的建模样本得到的训练集样本S1,构建XGBoost模型M1作为单一预测模型,重复上述过程多次,构建多个所述单一预测模型。
9.一种融合高频影响因素的集成型用电量增长预测装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的融合高频影响因素的集成型用电量增长预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的融合高频影响因素的集成型用电量增长预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110066227.6A CN112766569A (zh) | 2021-01-19 | 2021-01-19 | 融合高频影响因素的集成型用电量增长预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110066227.6A CN112766569A (zh) | 2021-01-19 | 2021-01-19 | 融合高频影响因素的集成型用电量增长预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766569A true CN112766569A (zh) | 2021-05-07 |
Family
ID=75702886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110066227.6A Pending CN112766569A (zh) | 2021-01-19 | 2021-01-19 | 融合高频影响因素的集成型用电量增长预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766569A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109060760A (zh) * | 2018-06-27 | 2018-12-21 | 中石化西南石油工程有限公司地质录井分公司 | 分析模型建立方法、气体分析装置及方法 |
CN109858674A (zh) * | 2018-12-27 | 2019-06-07 | 国网浙江省电力有限公司 | 基于XGBoost算法的月度负荷预测方法 |
CN110175644A (zh) * | 2019-05-27 | 2019-08-27 | 恒安嘉新(北京)科技股份公司 | 特征选择方法、装置、电子设备、及存储介质 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
-
2021
- 2021-01-19 CN CN202110066227.6A patent/CN112766569A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109060760A (zh) * | 2018-06-27 | 2018-12-21 | 中石化西南石油工程有限公司地质录井分公司 | 分析模型建立方法、气体分析装置及方法 |
CN109858674A (zh) * | 2018-12-27 | 2019-06-07 | 国网浙江省电力有限公司 | 基于XGBoost算法的月度负荷预测方法 |
CN110175644A (zh) * | 2019-05-27 | 2019-08-27 | 恒安嘉新(北京)科技股份公司 | 特征选择方法、装置、电子设备、及存储介质 |
CN111340273A (zh) * | 2020-02-17 | 2020-06-26 | 南京邮电大学 | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 |
Non-Patent Citations (1)
Title |
---|
钱仲文等: "一种基于XGBoost 算法的月度负荷预测方法", 《浙江电力》, vol. 38, no. 5, pages 1 - 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110912B (zh) | 一种光伏功率多模型区间预测方法 | |
Marseguerra et al. | Designing optimal degradation tests via multi-objective genetic algorithms | |
CN110601250B (zh) | 一种基于新能源电站接入点静态电压稳定性评估方法 | |
CN115545333A (zh) | 一种多负荷日类型配电网负荷曲线预测方法 | |
CN112990587A (zh) | 一种对台区用电进行精准预测的方法及系统、设备、介质 | |
JP2006011715A (ja) | 資源消費量の推定方法及び装置 | |
CN108960522A (zh) | 一种光伏发电量预测分析方法 | |
CN115099511A (zh) | 基于优化copula的光伏功率概率估计方法及系统 | |
CN108256676B (zh) | 一种计及负荷波动不对称特性的电力负荷预测方法 | |
CN115860797B (zh) | 一种适应新电价改革形势的电量需求预测方法 | |
CN109447512B (zh) | 基于均匀设计的大电网可靠性评估方法 | |
CN116826710A (zh) | 基于负荷预测的削峰策略推荐方法、装置及存储介质 | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
CN112766569A (zh) | 融合高频影响因素的集成型用电量增长预测方法及装置 | |
CN116611785A (zh) | 一种基于大数据的输变电工程造价模型构建方法、系统、设备及介质 | |
CN116050636A (zh) | 光伏电站的出力预测方法、装置、设备及介质 | |
CN116258269A (zh) | 一种基于负荷特征分解的超短期负荷动态预测方法 | |
CN112581311B (zh) | 一种多风电场聚合后出力长期波动特性预测方法及系统 | |
CN115907228A (zh) | 一种基于pso-lssvm的短期电力负荷预测分析方法 | |
CN115561697A (zh) | 一种智能电表误差分析方法 | |
CN115130764A (zh) | 基于状态评估的配电网态势预测方法及系统 | |
CN110175705B (zh) | 一种负荷预测方法及包含该方法的存储器、系统 | |
CN114662563A (zh) | 一种基于梯度提升算法的工业用电非侵入负荷分解方法 | |
CN114266593A (zh) | 一种基于kpca和线性回归的电力消费预测方法 | |
CN112801388A (zh) | 一种基于非线性时间序列算法的电力负荷预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |