CN113962431A - 一种两阶段特征处理的母线负荷预测方法 - Google Patents

一种两阶段特征处理的母线负荷预测方法 Download PDF

Info

Publication number
CN113962431A
CN113962431A CN202111053654.7A CN202111053654A CN113962431A CN 113962431 A CN113962431 A CN 113962431A CN 202111053654 A CN202111053654 A CN 202111053654A CN 113962431 A CN113962431 A CN 113962431A
Authority
CN
China
Prior art keywords
load
data
prediction
correlation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111053654.7A
Other languages
English (en)
Other versions
CN113962431B (zh
Inventor
刘宏达
张爽
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202111053654.7A priority Critical patent/CN113962431B/zh
Priority claimed from CN202111053654.7A external-priority patent/CN113962431B/zh
Publication of CN113962431A publication Critical patent/CN113962431A/zh
Application granted granted Critical
Publication of CN113962431B publication Critical patent/CN113962431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种两阶段特征处理的母线负荷预测方法,该方法主要包括两阶段特征处理部分和母线负荷预测部分。两阶段特征处理部分是指,第一阶段特征处理:历史负荷相关性分析和其他变量特征选择;第二阶段特征处理:基于自动编码器的负荷特征提取,母线负荷预测部分通过LSTM网络来实现。本发明通过皮尔森相关系数法分析历史负荷相关性,使历史负荷的选择更加具有科学性,并且通过自动编码器对历史负荷数据的特征提取,可以更好的挖掘到数据内部的联系和规律。

Description

一种两阶段特征处理的母线负荷预测方法
技术领域
本发明属于负荷预测领域,具体涉及的是一种两阶段特征处理的母线负荷预测方法。
背景技术
不同于系统负荷,母线负荷是指由变电站中主变压器供给某个供电区域终端负荷的总和, 它是系统负荷的一个组成部分。母线负荷预测的预测对象对应电力线路图中的母线。精准的 母线负荷预测可以有效提升电网调度水平,有利于电网安全稳定运行。相较于系统负荷,母 线负荷具有量级低、随机性强的特点,因而母线负荷的规律性更差。同时,母线负荷是供给 较小范围的区域负荷的总和,由于供电区域内用户性质的差异,造成了各母线负荷的负荷成 分和负荷特性的不同。即影响母线负荷的因素各不相同。
深度学习是目前负荷预测领域新兴的技术。基于深度网络的母线负荷预测法是通过挖掘 历史负荷数据、气象数据(如温度、湿度和辐照度等)和时间特征等众多数据来找到母线负 荷复杂的规律,从而实现对母线负荷的预测。但是若将所有特征作为网络的输入,导致系统 计算速度变慢,而且如果输入中存在相关性小或无关特征,还会造成预测精度降低,因此特 征选择显得尤为重要。
随机森林算法能够计算单个特征的重要程度,使用随机森林方法对母线负荷预测的历史 负荷特征、气象特征和时间特征的重要度进行排序分析,选择重要度较高的特征作为母线负 荷预测的输入特征。长短期记忆(LSTM)网络擅长处理时间序列问题,因此母线负荷预测网 络使用长短期记忆(LSTM)网络,将经过特征选择的特征作为LSTM网络的输入,待预测母线 负荷作为预测网络的输出,对LSTM网络进行训练,来找到输入特征和输出待预测母线负荷之 间的关系,从而实现母线负荷预测。
在母线负荷预测中,对历史负荷数据强关联时刻的选择一般采用经验法确定,常采用待 预测时刻前一时刻、前一天同一时刻和前七天同一时刻历史负荷作为输入,但经验法往往缺 乏充分的科学依据。同时,对于规律性较为复杂的母线负荷,只通过深度学习网络进行预测 可能对数据规律挖掘不充分,从而影响母线负荷预测精度。
发明内容
本发明的目的是通过第一阶段对历史负荷数据、气象和时间等特征的选择,来找到影响 母线负荷的关键因素,利用第二阶段自动编码器对母线负荷数据的重新编码,来挖掘母线负 荷更深层次的规律的一种两阶段特征处理的母线负荷预测方法。
本发明的目的是这样实现的:
一种两阶段特征处理的母线负荷预测方法,其特征是:包括以下步骤:
步骤1:原始数据的预处理,对历史负荷数据进行缺失值填补并将所有数据归一化;
采用线性插值法填补缺失数据,计算公式如下所示。
Figure BDA0003253650900000021
式中:xt为填补的数据值;l为最近可用数据与待填补数据之间的距离。
采用min-max归一化方法,归一化方法如下式:
Figure BDA0003253650900000022
式中,x*为归一化后的结果,x为原数据集数值,xmin为原数据集的最小值,xmax为原数 据集的最大值,x*为归一化后的结果。
步骤2:通过皮尔森相关系数法对历史负荷进行相关性分析,计算待预测时刻负荷与历史 负荷的相关系数,找到与待预测时刻相关性较高的时刻,使其作为自动编码器的输入,用于 第二段特征提取;
皮尔逊相关系数,用于度量两个变量之间的相关程度,相关系数越大,两变量的相关性 越强,反之相关性越弱。假设两个变量X和Y为n维向量,其中X=[X1,X1,…,Xn], Y=[Y1,Y1,…,Yn],则两变量间的皮尔逊相关系数为:
Figure BDA0003253650900000023
式中,
Figure BDA0003253650900000024
Figure BDA0003253650900000025
分别为变量X、Y的均值。
以母线历史负荷序列为样本进行皮尔逊相关性分析,设当前待预测负荷序列i为Li={l(t),l(t-1),…,l(t-n)},则待预测负荷序列的x个时刻前的历史负荷序列可表示为Li-x={l(t-x),l(t-x-1),…,l(t-x-n)},分析待预测负荷序列Li与历史负荷序列Li-1,Li-2,… ,Li-x之间的相关性,得到的相关系数是-1~1之间的有理数,其绝对值越大表示相关程度越 大,其正负表示相关性的正负。
步骤3:根据XGboost算法对气象特征的重要性评分,进行特征选择;
XGboost算法会计算当前特征输入时的预测误差并对特征重要性进行评分,特征的重要性 是依据该特征对预测结果的影响程度来确定,将全部气象和时间特征作为Xgboost算法的输入 特征,通过算法计算对特征重要性进行排序,按照特征重要性由高到低进行组合;
XGBoost算法是由多个弱学习器组成的一个加法模型,XGBoost由t个模型组成的一个加 法运算式,如下式所示。
Figure BDA0003253650900000031
式中,xi表示数据集第i个数据点的特性向量,ft为每一棵树的结构与节点的权重,
Figure BDA0003253650900000032
为最终的输出结果。
每个特征变量的重要程度要根据该特征给要预测的负荷带来的信息增益来决定。根据决 策树的构建原则可知如果节点分裂的信息增益变大则节点进行分裂,根据信息增量我们可以 得到特征的重要程度打分。Xgboost模型中每棵决策树的构建与训练如下式所示。
Figure BDA0003253650900000033
式中,
Figure BDA0003253650900000034
部分为训练误差,
Figure BDA0003253650900000035
为树的复杂度的总和。每棵树的训练采用 增量训练,即每一次都是在保留原有模型的基础上,添加一棵新的树到模型中去。
最终整个Xgboost模型的计算结果:
Figure BDA0003253650900000036
式中,
Figure BDA0003253650900000037
是第i个样本在第t轮的模型预测值,其保留了t-1轮模型预测值,并加入第n 棵树的预测值。
步骤4:使用历史负荷数据对自动编码器进行训练,将训练完成的自动编码器解码部分删 除,利用编码部分进行特征提取;
自动编码器是一种自监督神经网络,该网络由编码器和解码器两部分组成,通过对数据 的编码和解码来重构输入数据,使其隐藏层部分学习到该输入的良好特征;利用自动编码器 提取数据特征的能力,首先通过使用历史负荷数据对自动编码器进行训练,使其重构数据的 均方误差最小化,从而学习到历史负荷的深层规律;随后,将训练完成自动编码器解码部分 删除,只使用剩下的编码器网络部分作为预测网络的输入,即将自动编码器的隐藏层部分作 为下面母线负荷预测网络的输入;
步骤5:对提取的历史负荷特征和选择后特征进行拼接;
步骤6:将拼接特征作为LSTM网络的输入,待预测负荷作为网络的输出,利用样本对其进 行训练和预测;
步骤7:反归一化预测结果,得到真实的预测负荷。
与现有技术相比,本发明的有益效果是:
本发明通过皮尔森相关系数法分析历史负荷相关性,使历史负荷的选择更加具有科学性, 并且通过自动编码器对历史负荷数据的特征提取,可以更好的挖掘到数据内部的联系和规律。
附图说明
图1为本发明融合自动编码器与LSTM网络模型图;
图2为本发明两阶段特征提取的母线负荷预测流程图;
图3为本发明历史负荷相关性分析图;
图4为本发明特征重要性排序图;
图5为本发明不同特征选择误差图;
图6为本发明随机抽取的连续3日的预测结果图;
图7为本发明自动编码器处理图;
图8为本发明LSTM单元结构图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
一种两阶段特征处理的母线负荷预测方法,包括以下步骤:
步骤1:原始数据的预处理,对历史负荷数据进行缺失值填补并将所有数据归一化;
采用线性插值法填补缺失数据,计算公式如下所示。
Figure BDA0003253650900000041
式中:xt为填补的数据值;l为最近可用数据与待填补数据之间的距离。
采用min-max归一化方法,归一化方法如下式:
Figure BDA0003253650900000042
式中,x*为归一化后的结果,x为原数据集数值,xmin为原数据集的最小值,xmax为原数 据集的最大值,x*为归一化后的结果。
步骤2:通过皮尔森相关系数法对历史负荷进行相关性分析,计算待预测时刻负荷与历史 负荷的相关系数,找到与待预测时刻相关性较高的时刻,使其作为自动编码器的输入,用于 第二段特征提取;
皮尔逊相关系数,用于度量两个变量之间的相关程度,相关系数越大,两变量的相关性 越强,反之相关性越弱。假设两个变量X和Y为n维向量,其中X=[X1,X1,…,Xn], Y=[Y1,Y1,…,Yn],则两变量间的皮尔逊相关系数为:
Figure BDA0003253650900000051
式中,
Figure BDA0003253650900000052
Figure BDA0003253650900000053
分别为变量X、Y的均值。
以母线历史负荷序列为样本进行皮尔逊相关性分析,设当前待预测负荷序列i为Li={l(t),l(t-1),…,l(t-n)},则待预测负荷序列的x个时刻前的历史负荷序列可表示为Li-x={l(t-x),l(t-x-1),…,l(t-x-n)},分析待预测负荷序列Li与历史负荷序列Li-1,Li-2,… ,Li-x之间的相关性,得到的相关系数是-1~1之间的有理数,其绝对值越大表示相关程度越 大,其正负表示相关性的正负。
步骤3:根据XGboost算法对气象特征的重要性评分,进行特征选择;
XGboost算法会计算当前特征输入时的预测误差并对特征重要性进行评分,特征的重要性 是依据该特征对预测结果的影响程度来确定,将全部气象和时间特征作为Xgboost算法的输入 特征,通过算法计算对特征重要性进行排序,按照特征重要性由高到低进行组合;
XGBoost算法是由多个弱学习器组成的一个加法模型,XGBoost由t个模型组成的一个加 法运算式,如下式所示。
Figure BDA0003253650900000054
式中,xi表示数据集第i个数据点的特性向量,ft为每一棵树的结构与节点的权重,
Figure BDA0003253650900000055
为最终的输出结果。
每个特征变量的重要程度要根据该特征给要预测的负荷带来的信息增益来决定。根据决 策树的构建原则可知如果节点分裂的信息增益变大则节点进行分裂,根据信息增量我们可以 得到特征的重要程度打分。Xgboost模型中每棵决策树的构建与训练如下式所示。
Figure BDA0003253650900000061
式中,
Figure BDA0003253650900000062
部分为训练误差,
Figure BDA0003253650900000063
为树的复杂度的总和。每棵树的训练采用 增量训练,即每一次都是在保留原有模型的基础上,添加一棵新的树到模型中去。
最终整个Xgboost模型的计算结果:
Figure BDA0003253650900000064
式中,
Figure BDA0003253650900000065
是第i个样本在第t轮的模型预测值,其保留了t-1轮模型预测值,并加入第n 棵树的预测值。
步骤4:使用历史负荷数据对自动编码器进行训练,将训练完成的自动编码器解码部分删 除,利用编码部分进行特征提取;
自动编码器是一种自监督神经网络,该网络由编码器和解码器两部分组成,通过对数据 的编码和解码来重构输入数据,使其隐藏层部分学习到该输入的良好特征;利用自动编码器 提取数据特征的能力,首先通过使用历史负荷数据对自动编码器进行训练,使其重构数据的 均方误差最小化,从而学习到历史负荷的深层规律;随后,将训练完成自动编码器解码部分 删除,只使用剩下的编码器网络部分作为预测网络的输入,即将自动编码器的隐藏层部分作 为下面母线负荷预测网络的输入;
自编码器通常由一个三层或者三层以上的神经网络来构成,图给出了一个三层结构的自 动编码器的例子。
其中
Figure BDA0003253650900000066
为原始特征的输入层,
Figure BDA0003253650900000067
为隐藏层,
Figure BDA0003253650900000068
为输出层,其中输入层和输出层的神经元 数量必须相同。编码器将输入层向量映射到向量空间
Figure BDA0003253650900000069
中,解码器从向量空间
Figure BDA00032536509000000610
重构输入向 量。
由图7可知自动编码器的工作原理如下式所示。
Figure BDA0003253650900000071
通常f(·)为s型函数,其中W1、b1和W2、b2分别代表编码器和解码器参数。
步骤5:对提取的历史负荷特征和选择后特征进行拼接;
步骤6:将拼接特征作为LSTM网络的输入,待预测负荷作为网络的输出,利用样本对其进 行训练和预测;
相对于传统的神经网络,LSTM把隐藏层设计成更复杂的结构,主要通过遗忘门、输入门 、输出门来增加或删除记忆单元的信息。LSTM神经网络就是为了解决梯度消失的问题而产生 的,结构是基于RNN的改进。其计算节点由输入门、输出门、遗忘门组成。输入门用来控制 信息输入;遗忘门用来控制细胞历史状态信息的保留;输出门用来控制信息输出。门使用一 个激活函数,使得遗忘门的输出值在0到1之间。当遗忘门输出为0时,表示将上一状态的 信息全部丢弃;当遗忘门输出为1时,表示上一状态的信息全部保留。
LSTM单元结构具有特殊的门结构,分别为遗忘门、更新门和输出门。通过门控状态来控 制传输状态,记住需要长时间记忆的信息,忘记不重要的信息。这些门结构接收前一时刻t-1 的输出值a<t-1>与当前时刻的输入数据x<t>,此外,每个单元结构还接收一个内部信息作为输 入,即记忆单元的状态c<t-1>。在接收到这些信息后,通过遗忘门对记忆单元c<t-1>进行处理, 决定从单元状态中丢弃什么信息,新状态的候选值c<t>与更新门的输出相乘并与经过遗忘门处 理后的c<t-1>叠加,得到了新的记忆单元状态c<t>。c<t>经过非线性函数运算与输出门的输出结 果结合形成了单元结构的输出a<t>。其中具体计算公式如下:
Figure BDA0003253650900000072
Figure BDA0003253650900000073
Figure BDA0003253650900000074
Figure BDA0003253650900000075
Figure BDA0003253650900000076
Figure BDA0003253650900000077
式中,
Figure BDA0003253650900000078
分别表示遗忘门,更新门,输出门的输出值。Wf,Wu,Wo为各门的权重矩阵,bf,bu,bo为偏置向量,σ为sigmoid或tanh激活函数。
步骤7:反归一化预测结果,得到真实的预测负荷。
本发明通过第一阶段对历史负荷数据、气象和时间等特征的选择,来找到影响母线负荷 的关键因素,利用第二阶段自动编码器对母线负荷数据的重新编码,来挖掘母线负荷更深层 次的规律。经过两阶段的特征处理,充分适应不同母线的不同特性和规律。
本发明揭示了一种两阶段特征处理的母线负荷预测方法,该方法主要包括两阶段特征处 理部分和母线负荷预测部分。两阶段特征处理部分是指,第一阶段特征处理:历史负荷相关 性分析和其他变量特征选择;第二阶段特征处理:基于自动编码器的负荷特征提取,母线负 荷预测部分通过LSTM网络来实现。第二阶段特征提取和母线负荷预测部分由自动编码器和 LSTM融合模型完成,模型如图1所示。
所述第一阶段特征处理,对历史负荷时刻的相关性分析和对气象和时间特征的选择。利 用皮尔森相关系数对历史负荷数据进行相关性分析,计算待预测时刻负荷与历史负荷(一般 为待预测时刻前七天所有时刻负荷)的相关系数,找到相关系数较高的几个时刻并通过实验 测试来确定最优的历史负荷时刻组。通过Xgboost算法来实现气象和时间特征的选择,该算法 会计算当前特征输入时的预测误差并对特征重要性进行评分,特征的重要性是依据该特征对 预测结果的影响程度来确定。将全部气象和时间特征作为Xgboost算法的输入特征,通过算法 计算对特征重要性进行排序,按照特征重要性由高到低进行组合,并测试不同组合下的预测 精度,将其误差作为参考,以确定最佳的特征组合。
所述第二阶段特征处理:基于自动编码器的母线负荷特征提取。自动编码器是一种自监 督神经网络,该网络由编码器和解码器两部分组成,通过对数据的编码和解码来重构输入数 据,使其隐藏层部分学习到该输入的良好特征。我们利用自动编码器提取数据特征的能力, 首先通过使用历史负荷数据对自动编码器进行训练,使其重构数据的均方误差最小化,从而 学习到历史负荷的深层规律。随后,将训练完成自动编码器解码部分删除,只使用剩下的编 码器网络部分作为预测网络的输入,即将自动编码器的隐藏层部分作为下面母线负荷预测网 络的输入。
母线负荷预测部分由LSTM网络完成,LSTM网络的输入为经自动编码器重新编码的历史 负荷和特征选择后的气象和时间特征进行拼接后的数据,待预测时刻母线负荷作为LSTM网络 的输出,通过对LSTM网络的训练找网络输入量和输出量之间的联系。这样实现了输入历史负 荷、气象和时间等数据到网络中,来预测未来时刻的母线负荷,完成对母线负荷的预测。
为了更容易理解本发明的实施和利用过程,下面给出示范案例。数据来源于我国某地区 220KV母线变电站主变高压侧有功负荷,采样时间范围为某年7月29日到次年7月28日,采样分 辨率为5min,每天采集288个样本点。该数据缺失率只有0.43%,且较为离散,故采用线性插 值法对其填补。
将待预测时刻负荷与前七天所有历史时刻负荷利用皮尔森相关系数进行分析,结果如图3 所示。选择与待预测时刻相关性较高的前n个不同时刻按相关性由高到低进行组合,测试不同 组合下的LSTM网络负荷预测结果,如下表所示。
Figure BDA0003253650900000091
由测试结果可知,选择待预测时刻的前两个时刻的历史负荷作为预测网络的输入,得到 的预测精度较高且消耗的计算资源较小。
通过XGboost算法对气象和时间特征的重要性进行排序,结果图4所示。采用Xgboost算法 的预测误差结果作为参考,测试输入不同特征数量下的预测误差,如图5所示。
由图5可以看出输入特征数量保持在15个的时候取得了最佳效果,在15个特征的基础上继 续减少特征数量,误差呈现上升趋势,故选取15个重要性较高的特征作为预测模型输入。
本发明所提的自动编码器和LSTM融合模型的自动编码器部分由LSTM单元组成,编码器 和解码器分别用两层LSTM构成,分别具有128个和32个LSTM单元,损失函数为MAE,优化 器基于Adam算法。该模型负荷预测部分的LSTM设置为两层,LSTM单元分别设置为128和64,为防止过拟合,Dropout设置为0.2,损失函数为MSE,Adam梯度下降方式优化损失函数,批大小均设置为288,迭代次数为100。
将选定历史负荷数据输入到自动编码器中重新编码,并将其与选择的特征进行拼接送入 LSTM预测网络。将数据按80%和20%的比例划分为训练集和验证集,选取验证集中7月连续 三天的预测结果展示,如图5所示。选用预测问题中常用的平均绝对误差(MAE)、均方误 差(MSE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)指标来评价预测结果, 如下表所示。
MAE MSE RMSE MAPE
0.5669 1.9021 1.3791 0.6944
从图6中可以看出,该母线负荷预测方法在负荷变化较为平稳时和在负荷变化较为剧烈、 波动较大时,预测值与真实值均极为接近,预测精度高。

Claims (1)

1.一种两阶段特征处理的母线负荷预测方法,其特征是:包括以下步骤:
步骤1:原始数据的预处理,对历史负荷数据进行缺失值填补并将所有数据归一化;
采用线性插值法填补缺失数据,计算公式如下所示。
Figure FDA0003253650890000011
式中:xt为填补的数据值;l为最近可用数据与待填补数据之间的距离。
采用min-max归一化方法,归一化方法如下式:
Figure FDA0003253650890000012
式中,x*为归一化后的结果,x为原数据集数值,xmin为原数据集的最小值,xmax为原数据集的最大值,x*为归一化后的结果。
步骤2:通过皮尔森相关系数法对历史负荷进行相关性分析,计算待预测时刻负荷与历史负荷的相关系数,找到与待预测时刻相关性较高的时刻,使其作为自动编码器的输入,用于第二段特征提取;
皮尔逊相关系数,用于度量两个变量之间的相关程度,相关系数越大,两变量的相关性越强,反之相关性越弱。假设两个变量X和Y为n维向量,其中X=[X1,X1,…,Xn],Y=[Y1,Y1,…,Yn],则两变量间的皮尔逊相关系数为:
Figure FDA0003253650890000013
式中,
Figure FDA0003253650890000014
Figure FDA0003253650890000015
分别为变量X、Y的均值。
以母线历史负荷序列为样本进行皮尔逊相关性分析,设当前待预测负荷序列i为Li={l(t),l(t-1),…,l(t-n)},则待预测负荷序列的x个时刻前的历史负荷序列可表示为Li-x={l(t-x),l(t-x-1),…,l(t-x-n)},分析待预测负荷序列Li与历史负荷序列Li-1,Li-2,…,Li-x之间的相关性,得到的相关系数是-1~1之间的有理数,其绝对值越大表示相关程度越大,其正负表示相关性的正负。
步骤3:根据XGboost算法对气象特征的重要性评分,进行特征选择;
XGboost算法会计算当前特征输入时的预测误差并对特征重要性进行评分,特征的重要性是依据该特征对预测结果的影响程度来确定,将全部气象和时间特征作为Xgboost算法的输入特征,通过算法计算对特征重要性进行排序,按照特征重要性由高到低进行组合;
XGBoost算法是由多个弱学习器组成的一个加法模型,XGBoost由t个模型组成的一个加法运算式,如下式所示。
Figure FDA0003253650890000021
式中,xi表示数据集第i个数据点的特性向量,ft为每一棵树的结构与节点的权重,
Figure FDA0003253650890000022
为最终的输出结果。
每个特征变量的重要程度要根据该特征给要预测的负荷带来的信息增益来决定。根据决策树的构建原则可知如果节点分裂的信息增益变大则节点进行分裂,根据信息增量我们可以得到特征的重要程度打分。Xgboost模型中每棵决策树的构建与训练如下式所示。
Figure FDA0003253650890000023
式中,
Figure FDA0003253650890000024
部分为训练误差,
Figure FDA0003253650890000025
为树的复杂度的总和。每棵树的训练采用增量训练,即每一次都是在保留原有模型的基础上,添加一棵新的树到模型中去。
最终整个Xgboost模型的计算结果:
Figure FDA0003253650890000026
Figure FDA0003253650890000027
Figure FDA0003253650890000028
Figure FDA0003253650890000029
式中,
Figure FDA00032536508900000210
是第i个样本在第t轮的模型预测值,其保留了t-1轮模型预测值,并加入第n棵树的预测值。
步骤4:使用历史负荷数据对自动编码器进行训练,将训练完成的自动编码器解码部分删除,利用编码部分进行特征提取;
自动编码器是一种自监督神经网络,该网络由编码器和解码器两部分组成,通过对数据的编码和解码来重构输入数据,使其隐藏层部分学习到该输入的良好特征;利用自动编码器提取数据特征的能力,首先通过使用历史负荷数据对自动编码器进行训练,使其重构数据的均方误差最小化,从而学习到历史负荷的深层规律;随后,将训练完成自动编码器解码部分删除,只使用剩下的编码器网络部分作为预测网络的输入,即将自动编码器的隐藏层部分作为下面母线负荷预测网络的输入;
步骤5:对提取的历史负荷特征和选择后特征进行拼接;
步骤6:将拼接特征作为LSTM网络的输入,待预测负荷作为网络的输出,利用样本对其进行训练和预测;
步骤7:反归一化预测结果,得到真实的预测负荷。
CN202111053654.7A 2021-09-09 一种两阶段特征处理的母线负荷预测方法 Active CN113962431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053654.7A CN113962431B (zh) 2021-09-09 一种两阶段特征处理的母线负荷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053654.7A CN113962431B (zh) 2021-09-09 一种两阶段特征处理的母线负荷预测方法

Publications (2)

Publication Number Publication Date
CN113962431A true CN113962431A (zh) 2022-01-21
CN113962431B CN113962431B (zh) 2024-07-16

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184940A1 (zh) * 2022-03-31 2023-10-05 福州大学 基于深度学习的面向高维高可变云工作负载的预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510113A (zh) * 2018-03-21 2018-09-07 中南大学 一种XGBoost在短期负荷预测中的应用
CN110570034A (zh) * 2019-08-29 2019-12-13 河海大学 一种基于多XGBoost模型融合的母线负荷预测方法
CN110826795A (zh) * 2019-10-31 2020-02-21 国网辽宁省电力有限公司经济技术研究院 极端温度气象日母线日前负荷预测方法
CN112016734A (zh) * 2020-04-07 2020-12-01 沈阳工业大学 基于lstm栈式自编码多模型荷预测方法及系统
AU2020104000A4 (en) * 2020-12-10 2021-02-18 Guangxi University Short-term Load Forecasting Method Based on TCN and IPSO-LSSVM Combined Model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510113A (zh) * 2018-03-21 2018-09-07 中南大学 一种XGBoost在短期负荷预测中的应用
CN110570034A (zh) * 2019-08-29 2019-12-13 河海大学 一种基于多XGBoost模型融合的母线负荷预测方法
CN110826795A (zh) * 2019-10-31 2020-02-21 国网辽宁省电力有限公司经济技术研究院 极端温度气象日母线日前负荷预测方法
CN112016734A (zh) * 2020-04-07 2020-12-01 沈阳工业大学 基于lstm栈式自编码多模型荷预测方法及系统
AU2020104000A4 (en) * 2020-12-10 2021-02-18 Guangxi University Short-term Load Forecasting Method Based on TCN and IPSO-LSSVM Combined Model

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184940A1 (zh) * 2022-03-31 2023-10-05 福州大学 基于深度学习的面向高维高可变云工作负载的预测方法

Similar Documents

Publication Publication Date Title
CN112949945B (zh) 一种改进双向长短期记忆网络的风电功率超短期预测方法
CN111260030B (zh) 基于a-tcn电力负荷预测方法、装置、计算机设备及存储介质
CN106600059B (zh) 基于改进rbf神经网络的智能电网短期负荷预测方法
CN111260136A (zh) 一种基于arima-lstm组合模型的楼宇短期负荷预测方法
CN110751318B (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN111814956B (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN110826791A (zh) 一种基于长短时记忆神经网络的混合风功率预测方法
CN108879732B (zh) 电力系统暂态稳定评估方法及装置
CN112329990A (zh) 一种基于lstm-bp神经网络的用户用电负荷预测方法
CN112381673B (zh) 一种基于数字孪生的园区用电信息分析方法及装置
CN114707712A (zh) 一种发电机组备件需求的预测方法
CN112330027A (zh) 一种基于搜索引擎指数的电力负荷预测方法
CN115587666A (zh) 基于季节趋势分解和混合神经网络的负荷预测方法及系统
CN115860177A (zh) 基于组合式机器学习模型光伏发电功率预测方法及其应用
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
CN110458341B (zh) 一种考虑气象特性的超短期风电预测方法及系统
CN110738363B (zh) 一种光伏发电功率预测方法
CN112508286A (zh) 一种基于Kmeans-BiLSTM-DMD模型的短期负荷预测方法
CN114595861A (zh) 基于mstl和lstm模型的中长期电力负荷预测方法
CN114266201B (zh) 一种基于深度学习的自注意力电梯困人预测方法
CN112288140A (zh) 一种基于Keras的短期电力负荷预测方法、存储介质和设备
CN115545345A (zh) 一种基于gru-tcn模型的电网负荷预测方法
CN111292121A (zh) 一种基于园区画像的园区负荷预测方法及系统
CN114330815A (zh) 一种基于改进goa优化lstm的超短期风电功率预测方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant