CN116227716A

CN116227716A - 一种基于Stacking的多因素能源需求预测方法及系统

Info

Publication number: CN116227716A
Application number: CN202310245653.5A
Authority: CN
Inventors: 龚贤夫; 彭勃; 李耀东; 彭穗; 郑嘉鹏; 孟安宁
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-06

Abstract

本发明提供了本发明提供了一种基于Stacking的多因素能源需求预测方法及系统，该方法包括：构建能源需求影响数据集并聚类得到若干个子数据集；构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集；基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估；基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测。上述方法通过多个基学习器的预测结果进行融合，提升了预测模型的性能及对能源需求预测的准确率，以便能源的精准调度，有效降低能源调度的成本。

Description

一种基于Stacking的多因素能源需求预测方法及系统

技术领域

本发明涉及能源需求预测技术领域，尤其是涉及一种基于Stacking的多因素能源需求预测方法及系统。

背景技术

能源发展作为当下发展的热门话题，其已经进入了新的阶段，能源结构也更加复杂。由于各地地理环境、经济结构、发展水平的差异，对于能源需求的预测尚不存在放之四海而皆准的模型或方法。目前主要预测方法为以时间序列法为代表的传统预测方法和以人工智能技术为代表的人工智能预测法。传统的预测方法对数据质量要求比较严苛，模型相对较为简单，随着人工智能、云计算等信息技术在能源领域的广泛应用，新模式、新业态蓬勃兴起，传统的规划方法、分析模型难以适应研究需要，因此，人工智能预测法得到了众多研究者的关注。

人工智能预测法大多使用CNN(卷积神经网络)、LSTM(长短期记忆人工神经网络)等人工智能神经网络通过对于一种或多种能源数据进行训练，提取数据特征，其虽然能对能源需求进行预测，但只使用某一种人工智能网络对于能源需求进行预测，有时难以得到性能强大的预测模型，预测准确率差强人意。

发明内容

本发明旨在提供一种基于Stacking的多因素能源需求预测方法及系统，以解决上述技术问题，通过将多个基学习器的预测结果进行融合，提升了预测模型的性能，大大提升了对于能源需求预测的准确率，以便能源的精准调度，降低能源调度的成本。

为了解决上述技术问题，本发明提供了一种基于Stacking的多因素能源需求预测方法，包括以下步骤：

采集多因素能源需求相关历史数据及主要影响因子历史数据，构建能源需求影响数据集；

对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集；

构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集；

基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求；

基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测。

上述方案通过多个基学习器的预测结果进行融合，提升了预测模型的性能，避免出现通过单一人工智能网络进行能源需求预测存在的准确率低的问题，大大提升了对于能源需求预测的准确率，以便能源的精准调度，可以有效降低能源调度的成本。

进一步地，所述获取多类型能源需求历史数据，构建能源需求影响数据集，包括：采集多因素能源需求相关历史数据及主要影响因子历史数据，构建能源需求影响数据集，具体为：

采集多因素能源需求相关历史数据，按照时间进行排序并进行归一化处理，得到多因素能源序列样本数据集；

采集主要影响因子历史数据；

将主要影响因子历史数据作为输入数据集，多因素能源序列样本数据集作为输出数据集，构建能源需求影响数据集。

上述方案中，多因素能源需求相关历史数据可以反映各种因素能源需求的历史数据，保证数据获取的全面性和可靠性，以提升训练得到的模型性能。

进一步地，所述采集主要影响因子历史数据，具体包括：气象数据、时间数据、发电量数据、电网调度数据、经济数据和碳排放数据等。

上述方案中，主要影响因子历史数据可以充分体现能源需求影响的客观因素，将其作为输入数据集，可以进一步提高能源需求影响数据集的精确性。

进一步地，所述对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集，具体为：

利用K-Means算法对能源需求影响数据集进行聚类处理，随机选择若干个聚类中心获取对应的若干个子数据集。

上述方案中，K-Means算法是输入聚类个数k，即聚类中心，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。其接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。该算法可以将能源需求影响数据集按照聚类中心准确地划分为若干个子数据集。

进一步地，构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集，具体为：

构建基于LSTM、GRU和RNN的三个时序预测模型作为基学习器；

基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集。

上述方案中，LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU(GatedRecurrent Units)是循环神经网络中的一种门控机制，与具有遗忘门的长短期记忆网络LSTM相类似。RNN(Recurrent Neural Network)是循环神经网络，这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。

上述方案中，将LSTM、GRU和RNN的三个时序预测模型作为基学习器，可以充分应用到每个时序预测模型本身具备的优势。相较于单一模型而言，将其预测结果进行融合，不仅可以实现模型性能的大幅度提升，还可以提升能源需求预测准确率。

进一步地，所述基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集，具体为：

基于三个不同的子数据集对时序预测模型进行训练，在每个子数据集训练过程中，采用5折交叉验证法分别多轮次地训练LSTM、GRU和RNN三个基学习器，获取每个时序预测模型每一轮的预测结果数据；其中：在每一轮训练后，使用该轮训练得到的基学习器进行测试，得到该轮次的测试结果数据；

待训练结束，基于每个基学习器每一轮的预测结果数据获取每个时序预测模型对应的预测结果数据集；基于每一轮次的测试结果数据获取每个时序预测模型对应的测试结果数据集。

进一步地，所述基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求，具体为：

计算LSTM、GRU和RNN三个时序预测模型与其训练使用的子数据集的聚类中心的距离，构建两层DNN模型；

基于聚类中心距离对预测结果数据集进行处理，并基于处理后的数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求。

上述方案中，基于Stacking技术构建的三个时序预测模型及两层DNN模型，可以实现多个预测结果的融合，防止预测结果过拟合，有效提升预测模型的性能，提高能源需求预测的准确率，以便能源的精准调度，有效降低能源调度的成本。

进一步地，所述基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测，具体为：

获取待预测的在线数据，计算在线数据与每个聚类中心的平均距离；

对平均距离进行归一化，获取预测结果参数；

将在线数据同时同步输入LSTM、GRU和RNN三个时序预测模型中，三个时序预测模型每个时间节点的输出乘以预测结果参数作为两层DNN模型的输入；

两层DNN模型输出作为当前时间节点的预测结果，实现对多因素能源需求的预测。

进一步地，在所述对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集后，还包括：对每个子数据集中的数据按照时间进行排序，并利用插值法按照时间颗粒度将缺失时间数据补充完整。

上述方案中，通过插值法按照时间颗粒度将缺失时间数据补充完整，可以提高数据集的饱满程度，使之更具备代表性，以提升训练得到的模型性能。

本发明还提供一种基于Stacking的多因素能源需求预测系统，包括：

数据采集模块，用于采集多因素能源需求相关历史数据及主要影响因子历史数据，构建能源需求影响数据集；

子数据集获取模块，用于对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集；

多时序预测模型建立模块，用于构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集；

DNN模型建立模块，用于基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求；

预测模块，用于基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测。

上述方案提供的系统结构简单，构建方便。其通过多个基学习器的预测结果进行融合，提升了预测模型的性能，避免出现通过单一人工智能网络进行能源需求预测存在的准确率低的问题，大大提升了对于能源需求预测的准确率，以便能源的精准调度，可以有效降低能源调度的成本。

附图说明

图1为本发明一实施例中提供的一种基于Stacking的多因素能源需求预测方法示意图；

图2为本发明一实施例中提供的一种基于Stacking的多因素能源需求预测系统架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本实施例提供一种基于Stacking的多因素能源需求预测方法，包括以下步骤：

S1：采集多因素能源需求相关历史数据及主要影响因子历史数据，构建能源需求影响数据集；

S2：对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集；

S3：构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集；

S4：基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求；

S5：基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测。

本实施例通过多个基学习器的预测结果进行融合，提升了预测模型的性能，避免出现通过单一人工智能网络进行能源需求预测存在的准确率低的问题，大大提升了对于能源需求预测的准确率，以便能源的精准调度，可以有效降低能源调度的成本。

采集主要影响因子历史数据；

在本实施例中，多因素能源需求相关历史数据可以反映各种因素能源需求的历史数据，保证数据获取的全面性和可靠性，以提升训练得到的模型性能。

在本实施例中，主要影响因子历史数据可以充分体现能源需求影响的客观因素，将其作为输入数据集，可以进一步提高能源需求影响数据集的精确性。

在本实施例中，K-Means算法是输入聚类个数k，即聚类中心，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。其接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。该算法可以将能源需求影响数据集按照聚类中心准确地划分为若干个子数据集。

为了更具体说明本实施例的技术实现过程，此处以k＝3为例，即聚类中心的个数为3个，也表示数据最终分成的类别数为3。则步骤S2可表述为对能源需求影响数据集进行聚类处理，选择3个聚类中心获取对应的3个子数据集，具体为：

S21：随机选择k个数据点作为初始的聚类中心；

S22：计算所有数据点与k个聚类中心的欧式距离，选择距离最近的一个聚类中心作为它的类别标号，将所有数据点都进行标号分类。比如某一个数据点与第二个聚类中心欧式距离最小，那么该数据点的类别为2；

S23：在每个类别内，计算所有数据的均值作为新的聚类中心；

S24：重复步骤S22与步骤S23，直至聚类中心更新前后的欧式距离小于门槛值h₁(threshold)；

S25：计算所有数据点与最终k个聚类中心的欧式距离，选择距离最近的一个聚类中心作为它的类别标号，将所有数据点都进行标号分类，得到k个子数据集。

构建基于LSTM、GRU和RNN的三个时序预测模型作为基学习器；

需要说明的是，LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU(GatedRecurrent Units)是循环神经网络中的一种门控机制，与具有遗忘门的长短期记忆网络LSTM相类似。RNN(Recurrent Neural Network)是循环神经网络，这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。

需要进一步说明的是，基于LSTM、GRU和RNN的三个时序预测模型作为基学习器，此时的k＝3。模型输入数据为序列数据，维度为(N,T,D)，N为样本数量(number of samples)，T为时间长度(time steps)，D为单个输入样本维度(dimension)。LSTM模型可根据当前时间及过去时间(t-n，t-1)输入的序列数据，其中正整数n为步长，输出未来时间(t+1，t+n)的多类型能源需求数据，在指定时间的单个需求数据维度为d，其中d为能源类型数量，其中单一维度的数据为对应能源类型的需求数据。

为了更清楚描述本方案的技术过程，此处具体阐述步骤S3的技术实现过程，使用三个不同的子数据集，在每个子数据集训练过程中，采用5折交叉验证分别训练LSTM、GRU和RNN基学习器并得到新的预测结果数据集P_1i(i＝1，2，3，4，5)、P_2i(i＝1，2，3，4，5)、P_3i(i＝1，2，3，4，5)和新的测试结果数据集T₁、T₂、T₃，具体为

S31：将子数据按照特定比例将数据集随机分成训练集(training set)和测试集(test set)，本实施例将当前子训练集数据随机分为五份，五份数据轮流作为验证集，剩下的4份作为训练集。

S32：使用Xavier算法将LSTM模型参数进行初始化，应用Adam梯度下降算法，使用平均绝对误差(MAE Loss)作为损失函数，使用训练集数据对LSTM模型进行训练，在每轮训练完成后对验证集进行预测，得到预测结果P_1i(i＝1，2，3，4，5)(若第一份数据为验证集，则i＝1，若第二份数据为验证集，则i＝2，依此类推)，由于一共有五份数据，故一共训练五轮。

S33：在每轮训练时，使用训练完成的模型对测试集数据进行预测，得到T_1i(i＝1，2，3，4，5)，在经过五轮训练后，对T₁₁、T₁₂、T₁₃、T₁₄、T₁₅取平均值得到T₁。

S34：重复步骤S32、S33训练GRU模型和RNN模型，得到P_2i(i＝1，2，3，4，5)、P_3i(i＝1，2，3，4，5)以及T₂、T₃，组合得到新的训练集预测结果P_1i(i＝1，2，3，4，5)、P_2i(i＝1，2，3，4，5)、P_3i(i＝1，2，3，4，5)和新的测试集预测结果T₁、T₂、T₃。

在本实施例中，将LSTM、GRU和RNN的三个时序预测模型作为基学习器，可以充分应用到每个时序预测模型本身具备的优势。相较于单一模型而言，将其预测结果进行融合，不仅可以实现模型性能的大幅度提升，还可以提升能源需求预测准确率。

计算LSTM、GRU和RNN三个时序预测模型与其训练使用的子数据集的聚类中心的距离d_i(i＝1，2，3)，并将距离进行归一化得到d′_i(i＝1，2…，w)，使得

使用P_1i(i＝1，2，3，4，5)*d′₁、P_2i(i＝1，2，3，4，5)*d′₂、P_3i(i＝1，2，3，4，5)*d′₃与每个样本对应标签值作为训练数据，对两层DNN模型进行训练，由测试集预测结果T₁、T₂、T₃对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求。

在本实施例中，基于Stacking技术构建的三个时序预测模型及两层DNN模型，可以实现多个预测结果的融合，防止预测结果过拟合，有效提升预测模型的性能，提高能源需求预测的准确率，以便能源的精准调度，有效降低能源调度的成本。

获取待预测的在线数据，计算在线数据与每个聚类中心的平均距离d_i(i＝1，2，3)；

对平均距离进行归一化，获取预测结果参数d′_i(i＝1，2，3)，使

将在线数据同时同步输入LSTM、GRU和RNN三个时序预测模型中，三个时序预测模型每个时间节点的输出乘以预测结果参数d′_i(i＝1，2，3)作为两层DNN模型的输入；

在本实施例中，通过插值法按照时间颗粒度将缺失时间数据补充完整，可以提高数据集的饱满程度，使之更具备代表性，以提升训练得到的模型性能。

上述实施例具体为，若时间颗粒度为日，例如数据集中有3个数据，分别是(20220103，30)，(20220105，50)，(20220107，70)，前一项代表日期，后一项代表数据值，利用插值法按照日为时间颗粒度得到(20220104，40)和(20220105，50)两个点，共5个点构成了此数据集。

请参见图2，本实施例还提供一种基于Stacking的多因素能源需求预测系统，包括：

本实施例提供的系统结构简单，构建方便。其通过多个基学习器的预测结果进行融合，提升了预测模型的性能，避免出现通过单一人工智能网络进行能源需求预测存在的准确率低的问题，大大提升了对于能源需求预测的准确率，以便能源的精准调度，可以有效降低能源调度的成本。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于Stacking的多因素能源需求预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述获取多类型能源需求历史数据，构建能源需求影响数据集，包括：采集多因素能源需求相关历史数据及主要影响因子历史数据，构建能源需求影响数据集，具体为：

采集主要影响因子历史数据；

3.根据权利要求2所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述采集主要影响因子历史数据，具体包括：气象数据、时间数据、发电量数据、电网调度数据、经济数据和碳排放数据。

4.根据权利要求1所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集，具体为：

5.根据权利要求1所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，构建多个时序预测模型作为基学习器并基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集，具体为：

构建基于LSTM、GRU和RNN的三个时序预测模型作为基学习器；

6.根据权利要求5所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述基于子数据集对时序预测模型进行训练和测试，获取每个时序预测模型对应的预测结果数据集和测试结果数据集，具体为：

7.根据权利要求5所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述基于各个子数据集的聚类中心距离构建两层DNN模型，并利用预测结果数据集对两层DNN模型进行训练，由测试结果数据集对两层DNN模型性能进行评估，直至两层DNN模型符合预设要求，具体为：

8.根据权利要求7所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，所述基于训练完毕的多个时序预测模型及两层DNN模型，实现对多因素能源需求的预测，具体为：

对平均距离进行归一化，获取预测结果参数；

9.根据权利要求1～8任一项所述的一种基于Stacking的多因素能源需求预测方法，其特征在于，在所述对能源需求影响数据集进行聚类处理，选择若干个聚类中心获取对应的若干个子数据集后，还包括：

对每个子数据集中的数据按照时间进行排序，并利用插值法按照时间颗粒度将缺失时间数据补充完整。

10.一种基于Stacking的多因素能源需求预测系统，其特征在于，包括：