CN116780515A - 用电量预测方法、装置、计算机设备及存储介质 - Google Patents
用电量预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116780515A CN116780515A CN202310741508.6A CN202310741508A CN116780515A CN 116780515 A CN116780515 A CN 116780515A CN 202310741508 A CN202310741508 A CN 202310741508A CN 116780515 A CN116780515 A CN 116780515A
- Authority
- CN
- China
- Prior art keywords
- prediction
- data set
- target
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005611 electricity Effects 0.000 claims abstract description 106
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000012360 testing method Methods 0.000 claims description 32
- 238000010992 reflux Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Power Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用电量预测方法、装置、计算机设备及存储介质,该方法先获取目标行业的预测数据集,然后获取目标用电量预测模型,对目标用电量预测模型进行训练,最后将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。目标用电量预测模型为XGBoost模型,使用数据增强后的数据对目标用电量预测模型进行训练。本发明能够实现中长期用电量预测、模型训练难度低且预测精度高。
Description
技术领域
本发明涉及电网规划中负荷预测技术领域,特别是涉及一种用电量预测方法、装置、计算机设备及存储介质。
背景技术
电网规划是电网投资的重要指引,而用电量预测又是电网规划的重要基础。在现有的较为成熟的电网规划中,通常根据地方经济的发展特点,结合当前国土空间规划,预测该区域地块内用电负荷发展的趋势,从而得出该区域一段时期内的电网最大负荷和用电量。
但是,由于区域地块内影响用电量的特征因素众多,特征数据存在区域跨度大、波动频繁、难以有效筛选等问题。且现有技术中的用电量预测方案均是以短期或超短期预测为主,即预测结果以自然日为输出周期,同时历史用电数据采集和收集也以自然日为统计周期,因此数据量可以满足其所用模型的训练和测试需求。但在面对中长期预测任务时,预测输出周期和数据统计周期单位均为自然月,这将会导致数据量匮乏以及预测粒度过大,数据量匮乏会导致用电量预测模型训练难度增大,预测粒度过大会导致数据模糊熵过大和数据纠缠现象明显等问题,进一步导致预测模型的预测精度降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现中长期用电量预测、模型训练难度低且预测精度高的用电量预测方法、装置、计算机设备及存储介质。
第一方面,本发明提供了一种用电量预测方法,包括:
获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对目标用电量预测模型进行训练;
将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量;
目标用电量预测模型为XGBoost模型,对目标用电量预测模型进行训练包括:
获取目标行业的原始用电数据集,原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3;
对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集;
重复执行将训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度;
将测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。
在其中一个实施例中,将供电区域划分为多个网格单元,将每个网格单元中的行业进行分类,从行业分类中选取目标行业。
在其中一个实施例中,对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集包括:
将原始数据集输入CTGAN模型,获得生成数据集;
对生成数据集进行数据处理,获得回流数据集;
将回流数据集与原始数据集组合生成新的原始数据集;
将新的原始数据集输入CTGAN模型,获得与原始数据集的数据量相等的新的生成数据集;
计算所有生成数据集的数据总量,若所有生成数据的数据总量大于目标数据量,则将所有的生成数据集与原始数据集的合集与温度数据拼接后作为训练数据集和测试数据集,否则对新的生成数据集进行数据处理,获得回流数据集,并转至将回流数据集与原始数据集组合生成新的原始数据集的步骤。
在其中一个实施例中,温度数据为一个月内的平均低温数据或者平均高温数据。
在其中一个实施例中,数据处理的方式为上下随机采样方式或取平均值进行填充的方式。
在其中一个实施例中,目标预测精度为90%~95%,设定阈值为2%~4%。
第二方面,本发明还提供了一种用电量预测装置。装置包括:
第一获取模块,模块用于获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
训练模块,训练模块用于获取目标用电量预测模型,对目标用电量预测模型进行训练;
预测模块,预测模块用于将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
在其中一个实施例中,训练模块包括:
第二获取模块,第二获取模块用于获取目标行业的原始用电数据集,原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3;
数据增强模块,数据增强模块用于对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集;
第一训练子模块,第一训练子模块用于重复执行将训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度;
第二训练子模块,第二训练子模块用于将测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。
第三方面,本发明还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对目标用电量预测模型进行训练;
将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对目标用电量预测模型进行训练;
将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
本发明的有益效果:
(1)本发明通过将供电区域划分为多个网格单元,并将网格单元内的各行业进行划分,选取目标行业并统计目标行业的用电量数据,降低特征因素对用电量数据的影响,解决特征数据存在的区域跨度大、波动频繁、难以有效筛选等问题。
(2)本发明通过对原始用电数据进行数据增强,解决了数据量匮乏的问题,能够增加数据样本数量且降低预测粒度,进而降低模型的训练难度,提高预测模型的预测精度。
(3)本发明中的预测数据集为预测时刻前一个月的数据,实现了中长期的用电量数据预测。
(4)本发明通过将TabNet模型的通用参数迁移至XGBoost模型,实现迁移学习,避免了XGBoost模型的冗余训练过程,同时,因为XGBoost的分级拟合残差的特点,使得它在训练的过程中能够以更小的步长去寻找最优预测精度,降低了预测复杂度,同时也保证了较强的鲁棒性。
附图说明
图1是本发明实施例提供的用电量预测方法的流程示意图之一;
图2是本发明实施例提供的对目标用电量预测模型进行训练的流程示意图之一;
图3是本发明实施例提供的用电量预测方法的流程示意图之一;
图4是本发明实施例提供的工业行业用电量真实值与预测值的对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在一个实施例中,如图1所示,图1是本发明实施例提供的用电量预测方法的流程示意图之一,以该方法应用于计算机设备,包括以下步骤:
S101:获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据。
需要说明的是,中长期预测的预测粒度是自然月,本实施例中以一个月的用电相关数据为预测数据集,实现中长期用电量预测。
具体的,行业景气指数,景气指数亦称景气度,是对企业景气调查中的定性指标通过定量方法加工汇总,综合反映某一特定调查群体或某一社会现象所处的状态或发展趋势的一种指标。景气指数介于0~200之间,100为景气指数的临界值,当景气指数大于100时,表明经济状况趋于上升或改善,当景气指数小于100时,表明经济状况趋于下降或恶化,处于不景气状态。更为细致的划分为:0~100为不景气区间,100~120为较景气区间,120~150为较高景气区间,150~200为高景气区间。
S102:获取目标用电量预测模型,对目标用电量预测模型进行训练。
S103:将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
优选的,目标用电量预测模型为XGBoost模型。XGBoost在训练样本有限、训练时间短、调参知识缺乏的场景下具有独特的优势,具有更强的可解释性,此外还具有易于调参、输入数据不变性等优势。作为GBDT的改进型算法,XGBoost本质上也是属于基于树的Boosting串行集成学习方法,它使用每棵树中样本预测值的累积和作为XGBoost系统中样本最终的预测值。传统GBDT在训练过程中只使用一阶导数信息,XGBoost在成本函数中添加一个正则项来控制模型的复杂度,降低过拟合的风险,并且同时使用损失函数的一阶导数和二阶导数,这也是XGBoost区别于传统GBDT的一个特点。
如图2所示,图2是本发明实施例提供的对目标用电量预测模型进行训练的流程示意图之一。对目标用电量预测模型进行训练包括:
S201、获取目标行业的原始用电数据集,原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3。
具体的,原始用电数据集中的是以月为时间基础的,即每个数据中包含当前一整月的用电量和当月行业景气指数。
S202、对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集。
具体的,数据增强会将原有N年的数据进行扩展,例如进行一次数据增强,则最后总的数据为2倍的原有N年的数据。对数据进行增强时,用电量和行业景气指数是拼接在一块的,用电量与其对应的行业景气指数值可以看作为一个整体数据进行增强。
由于温度数据可以随时获取,即现在也可以获取以前十年内任意时刻的温度数据,所以在对数据进行增强是不需要对温度数据进行增强,只需要在原始数据增强后将数据拼接到增强后的数据就行。需要说明的是,本实施例中数据增强时是相当于对数据的获取更多年份的数据,例如一次数据增强,将原有从预测时刻向前N年的数据增强到向前2N年的数据。但是,一般认为超过预测时间前十年更久的数据对现在预测时间的用电量预测没有意义。
S203、重复执行将训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度。
TabNet是基于顺序注意力机制的可解释表格学习神经网络。其网络结构中的Mask层是人为设置的,特征计算的实现依赖于全连接层。TabNet是一个顺序多步架构的深度学习框架,每个决策步在最终决策过程中都会贡献自己的决策结果,模型汇总所有决策步的加权决策结果,最后如果是分类任务则预测输出向量,回归任务则预测输出数值。
然而,当预测粒度较大,即按照自然月进行预测输出时,会存在数据模糊熵过大,数据纠缠现象明显等问题,这些问题共同导致预测模型复杂度过大等问题。将TabNet模型的通用参数迁移至XGBoost模型避免了XGBoost模型的冗余训练过程,降低了预测复杂度。且XGBoost的分级拟合残差的特点,使得它在训练的过程中能够以更小的步长去寻找最优预测精度,同时保证较强的鲁棒性。例如,如果不采用迁移学习,只以XGBoost单模型进行从0开始的预测输出,那么它的步长设定为5,就会遵循0、5、15、20、25……95、100这样的预测过程,假定最优预测精度应为93%,那么当它处于95%预测精度时停止训练,此时便有2%的残差,这部分残差将对应它丢失的鲁棒性;同样的,如果采取迁移学习,XGBoost从90%开始寻优,步长为1%,那么到93%的时候它可以立即停止训练,在保证了更高的预测精度的同时,实现了更优秀的鲁棒性。
并且,如果采用单模型的方法预测用电量,容易出现过拟合和欠拟合的现象,单模型很容易找到全局最优解(即当前最优精度),但这个最优解是不具备较强的鲁棒性和抗噪性的。在训练时可能精度足够高,但测试时一旦更换数据集,便极有可能出现精度锐减甚至精度接近100%的情况。因此我们采用双模型参数迁移的方法来提高模型训练的鲁棒性,保证在测试时也能有接近于训练的精度。
S204、将测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。本实施例的步骤能够保证目标用电量预测模型具有较高的鲁棒性。
在一个实施例中,将供电区域划分为多个网格单元,将每个网格单元中的行业进行分类,从行业分类中选取目标行业。
具体的,本实施例中将供电区域划分为多个网格单元的划分细则如表1所示。
表1供电区域划分细则
将每个网格单元中的行业进行分类的类别为包括居民;农、林、牧、渔业;工业;建筑业;交通运输、仓储和邮政业;信息传输、软件和信息技术服务业;批发和零售业;住宿和餐饮业;金融业;房地产业;租赁和商务服务业;公共服务及管理组织总共12个行业分类。
在网格化后的区域内选取12个行业分类中的一类为目标行业,选取目标行业并统计目标行业的用电量数据,降低特征因素对用电量数据的影响,解决特征数据存在的区域跨度大、波动频繁、难以有效筛选等问题。
在其中一个实施例中,如图3所示,图3是本发明提供的用电量预测方法的流程示意图之一,本实施例涉及的是如何对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集的一种可选的方式,在上述实施例的基础上,步骤S202包括:
S301、将原始数据集输入CTGAN模型,获得生成数据集。CTGAN模型由两部分组成,一部分为生成模型,又称为生成器(Generator,G),主要通过学习原始数据的潜在样本分布来产生生成数据;另一部分为对抗模型,又称为判别器(Discriminator,D),用于判断输入的原始数据是否为真实样本。训练时,生成器尽量保证生成数据与雨伞是数据分布一致以达到欺骗判别器的效果,而判别器则尽量保证自己能够准确分辨出生成数据和原始数据,CTGAN模型的主要作用是对原始数据进行倍数扩增。
S302、对生成数据集进行数据处理,获得回流数据集。
具体的,回流数据集指的是从CTGAN模型输出,并重新输入的数据集。
S303、将回流数据集与原始数据集组合生成新的原始数据集。
S304、将新的原始数据集输入CTGAN模型,获得与原始数据集的数据量相等的新的生成数据集。
S305、计算所有生成数据集的数据总量,若所有生成数据的数据总量大于目标数据量,则将所有的生成数据集与原始数据集的合集与温度数据拼接后作为训练数据集和测试数据集,否则对新的生成数据集进行数据处理,获得回流数据集,并转至将回流数据集与原始数据集组合生成新的原始数据集的步骤。
具体的,生成数据集的合集与温度数据采用但不限于人工拼接。
例如,一个具体的生成数据按照(用电量(kW·h),行业景气指数)格式表示为(1611311,110),假设当月平均温度为20℃,则拼接后的数据为(1611311,110,20)。
需要说明的是,每个生成数据集在数据增强没有完成之前是暂时存储的,当生成数据的总数量大于目标数据量后,将所述生成数据集作为一个集合与温度数据拼接为训练数据集,回流数据集存储的同时也和原始数据组合作为下一次数据增强的输入生成器的数据集,经过多次数据增强,最终实现生成数据大于目标数据量。总的来说,遵循“每一轮增强数据和第一轮的原始数据保持相同规模”这一准则,在除第一轮以外的增强过程中,都在当前数据集中添加上一轮所生成的增强数据以组成新的扩充数据集,最终的数据集规模计算方式应为:原始数据集规模×(数据增强轮次+1)。例如,原始数据有30个,则首先将原始数据输入CTGAN模型中获得第一轮的30个生成数据(第一轮增强),30个生成数据进行数据处理成30个回流数据,其次将30个回流数据与30个原始数据组合成60个新的原始数据(原始+第一轮增强),将60个新的原始数据输入CTGAN模型获得第二轮的30个生成数据(第二轮增强),此时生成数据的总量为60,当前数据量为90(原始+第一轮增强+第二轮增强),判断90与目标数据量(本实施例中具体为120)的大小,90小于120,则再将当前的90个数据处理为90个回流数据并输入CTGAN模型,以此获得第三轮的30个生成数据(第三轮增强),此时的数据总量为120(原始+第一轮增强+第二轮增强+第三轮增强),满足当前数据量≥目标数据量的要求,数据增强结束。
还需要说明的是,目标数据量根据外部依据和内部依据两部分共同决定。具体的,外部依据中最重要的参考标准是项目所研究的区域及地块内,十二个大分类中最后一个以现今形态存在的行业的起始日期。可以理解为,一共有十二个行业的大分类,假设其中十一个行业在2010年就保持或接近当下的发展趋势,而剩下的一个行业在2013年开始才向当前的发展形态靠拢,那么数据增强时的上限年(月)份就应该定为2013年,因此算法所需的基础数据量也就初步确定,即类似于木桶效应。内部依据对于大数据量、小特征数的情况而言,通常采用较为简单的办法进行处理,例如逻辑回归+正则;反之,在小数据量,大特征数的情况下,树模型可以分层寻优的性能优势便可以得到发挥。本实施例中实际情况符合前述两种情况中的后者,因此我们要确定的内部依据就是,“小数据量”究竟要多“小”,即满足两个模型(TabNet+XGBoost)的数据量的最小数字是多少。对于XGBoost而言,该情况下需要的数据量通常在300以下,但考虑到上述的外部因素,并不能将数据扩充到这么远的年限。因此最后以外部依据作为限制条件,寻求能满足模型训练需求的最大数据量,为120左右,即目标数据量为120左右。获得的原始数据的数据总量均小于120.
在其中一个实施例中,温度数据为一个月内的平均低温数据或者平均高温数据。平均低温和平均高温的数据来源主要是各天气门户网站,如央视网的天气频道、中国天气网等。
在其中一个实施例中,数据处理的方式为上下随机采样方式或取平均值进行填充的方式。在回流数据中可能出现值为0的数据,此时就需要采取上下随机采样方式或取平均值进行填充的方式对值为0的数据赋予新值。
在其中一个实施例中,目标预测精度为90%~95%,设定阈值为2%~4%。具体的设定阈值为目标预测精度与测试时精度的差值。例如当设定阈值具体3%,当将测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若XGBoost模型的预测精度与目标预测精度的差值小于3%,那么就认为测试是能够保证泛化能力的,最终实现下个月用电量预测的参考条件是以测试部分为准。
在一个具体的实施例中,本实施例以工业为基础,首先获取到从2020年5月到2022年5月共计24个月的工业历史用电量数据和行业景气指数以及相应的温度数据(数据以月为周期/次),然后将该数据集输入目标用电量预测模型进行训练与测试,如图4所示。图4表示工业的行业用电量真实值和预测值的对比示意图,且经分析后可得,本实施例的用电量预测方法的预测精度均值为94.47%,精度误差小于7%。同时在5月底以当前数据进行2022年6月的工业用电量数据预测,预测值为6684611(单位:kW·h,千瓦时)。6月初获取到工业的5月用电量真实数据为6904766(单位:kW·h,千瓦时),预测值与真实值的数值误差为220155(单位:kW·h,千瓦时),百分比误差约为3.19%,预测精度约为96.81%。由上述内容及图4分析可得,本实施例的用电量预测方法精度较高。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本发明实施例还提供了一种用于实现上述所涉及的用电量预测方法的用电量预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用电量预测装置实施例中的具体限定可以参见上文中对于用电量预测方法的限定,在此不再赘述。
在一个实施例中,用电量预测装置包括:
第一获取模块,模块用于获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
训练模块,训练模块用于获取目标用电量预测模型,对目标用电量预测模型进行训练;
预测模块,预测模块用于将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
在其中一个实施例中,训练模块包括:
第二获取模块,第二获取模块用于获取目标行业的原始用电数据集,原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3;
数据增强模块,数据增强模块用于对原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集;
第一训练子模块,第一训练子模块用于重复执行将训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度;
第二训练子模块,第二训练子模块用于将测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。
上述用电量预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对目标用电量预测模型进行训练;
将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
在一个实施例中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标行业的预测数据集,预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对目标用电量预测模型进行训练;
将预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (10)
1.一种用电量预测方法,其特征在于,包括:
获取目标行业的预测数据集,所述预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
获取目标用电量预测模型,对所述目标用电量预测模型进行训练;
将所述预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量;
所述目标用电量预测模型为XGBoost模型,对所述目标用电量预测模型进行训练包括:
获取目标行业的原始用电数据集,所述原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3;
对所述原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集;
重复执行将所述训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将所述训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度;
将所述测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若所述XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将所述测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。
2.根据权利要求1所述的用电量预测方法,其特征在于,将供电区域划分为多个网格单元,将每个网格单元中的行业进行分类,从行业分类中选取目标行业。
3.根据权利要求2所述的用电量预测方法,其特征在于,对所述原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集包括:
将所述原始数据集输入CTGAN模型,获得生成数据集;
对生成数据集进行数据处理,获得回流数据集;
将回流数据集与原始数据集组合生成新的原始数据集;
将新的原始数据集输入CTGAN模型,获得与原始数据集的数据量相等的新的生成数据集;
计算所有生成数据集的数据总量,若所有生成数据的数据总量大于目标数据量,则将所有的生成数据集与原始数据集的合集与温度数据拼接后作为训练数据集和测试数据集,否则对新的生成数据集进行数据处理,获得回流数据集,并转至将回流数据集与原始数据集组合生成新的原始数据集的步骤。
4.根据权利要求3所述的用电量预测方法,其特征在于,所述温度数据为一个月内的平均低温数据或者平均高温数据。
5.根据权利要求4所述的用电量预测方法,其特征在于,所述数据处理的方式为上下随机采样方式或取平均值进行填充的方式。
6.根据权利要求5所述的用电量预测方法,其特征在于,所述目标预测精度为90%~95%,所述设定阈值为2%~4%。
7.一种用电量预测装置,其特征在于,所述装置包括:
第一获取模块,所述模块用于获取目标行业的预测数据集,所述预测数据集包括预测时刻前一个月内目标行业的用电量、行业景气指数和温度数据;
训练模块,所述训练模块用于获取目标用电量预测模型,对所述目标用电量预测模型进行训练;
预测模块,所述预测模块用于将所述预测数据集输入训练完成的目标用电量预测模型获得目标行业的预测用电量。
8.根据权利要求7所述的用电量预测装置,其特征在于,所述训练模块包括:
第二获取模块,所述第二获取模块用于获取目标行业的原始用电数据集,所述原始用电数据集包括预测时刻前N年的目标行业用电量和行业景气指数,2≤N≤3;
数据增强模块,所述数据增强模块用于对所述原始数据集进行数据增强并拼接温度数据,获得训练数据集和测试数据集;
第一训练子模块,所述第一训练子模块用于重复执行将所述训练数据集输入TabNet模型,然后将TabNet模型的通用参数迁移至XGBoost模型,再将所述训练数据集输入XGBoost模型,最后计算XGBoost模型的预测精度,直至XGBoost模型的预测精度符合目标预测精度;
第二训练子模块,所述第二训练子模块用于将所述测试数数据集输入预测精度符合目标预测精度的XGBoost模型,若所述XGBoost模型的预测精度与目标预测精度的差值小于设定阈值,则确定预测精度符合目标预测精度的XGBoost模型为目标用电量预测模型,否则,微调预测精度符合目标预测精度的XGBoost模型的模型参数并转至将所述测试数数据集输入预测精度符合目标预测精度的XGBoost模型的步骤。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310741508.6A CN116780515A (zh) | 2023-06-21 | 2023-06-21 | 用电量预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310741508.6A CN116780515A (zh) | 2023-06-21 | 2023-06-21 | 用电量预测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116780515A true CN116780515A (zh) | 2023-09-19 |
Family
ID=88005971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310741508.6A Pending CN116780515A (zh) | 2023-06-21 | 2023-06-21 | 用电量预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116780515A (zh) |
-
2023
- 2023-06-21 CN CN202310741508.6A patent/CN116780515A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980906B (zh) | 一种基于spark的Ftrl电压预测方法 | |
CN116205355B (zh) | 电力负荷的预测方法、装置以及存储介质 | |
WO2022021727A1 (zh) | 城市综合体用电量预测方法、装置、电子设备及存储介质 | |
CN110751416A (zh) | 一种用水量的预测方法、装置及设备 | |
Hashemi et al. | A grey-based carbon management model for green supplier selection | |
CN109344990A (zh) | 一种基于dfs和svm特征选择的短期负荷预测方法及系统 | |
CN113469266A (zh) | 一种基于改进深度卷积神经网络的窃电行为检测方法 | |
CN110889560A (zh) | 一种具有深度可解释性的快递序列预测的方法 | |
CN114330934A (zh) | 一种模型参数自适应的gru新能源短期发电功率预测方法 | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
CN117494906B (zh) | 一种基于多元时间序列的天然气日负荷预测方法 | |
CN114254762A (zh) | 可解释性机器学习模型构建方法、装置和计算机设备 | |
CN117575564A (zh) | 可扩展的基础设施网络组件维修与改造决策评估方法及系统 | |
CN109829115B (zh) | 搜索引擎关键词优化方法 | |
CN116541165A (zh) | 实时系统任务调度方法、装置、计算机设备以及存储介质 | |
CN116780515A (zh) | 用电量预测方法、装置、计算机设备及存储介质 | |
CN115712836A (zh) | 一种交互式迭代建模方法 | |
CN113283638A (zh) | 一种基于融合模型的负荷极值曲线预测方法及系统 | |
CN110807599A (zh) | 电化学储能方案的决策方法、装置、服务器和存储介质 | |
CN117745423B (zh) | 一种异常账户的识别方法 | |
CN113449258B (zh) | 智能电表的质量评估方法、装置、终端设备及存储介质 | |
CN115062858B (zh) | 用户投诉行为预测方法、装置、设备及存储介质 | |
CN115829144B (zh) | 电网业务优化模型的建立方法及电子设备 | |
WO2022156743A1 (zh) | 特征构建方法和装置、模型训练方法和装置、设备、介质 | |
CN117852968A (zh) | 评估模型确定方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |