CN112785056B - 一种基于CatBoost和LSTM模型融合的短期负荷预测方法 - Google Patents

一种基于CatBoost和LSTM模型融合的短期负荷预测方法 Download PDF

Info

Publication number
CN112785056B
CN112785056B CN202110086845.7A CN202110086845A CN112785056B CN 112785056 B CN112785056 B CN 112785056B CN 202110086845 A CN202110086845 A CN 202110086845A CN 112785056 B CN112785056 B CN 112785056B
Authority
CN
China
Prior art keywords
model
catboost
lstm
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110086845.7A
Other languages
English (en)
Other versions
CN112785056A (zh
Inventor
陈忠华
俞容江
高振宇
王才倩
陈嘉敏
石国超
董悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Electric Power Design Institute Co ltd
Original Assignee
Hangzhou Electric Power Design Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electric Power Design Institute Co ltd filed Critical Hangzhou Electric Power Design Institute Co ltd
Priority to CN202110086845.7A priority Critical patent/CN112785056B/zh
Publication of CN112785056A publication Critical patent/CN112785056A/zh
Application granted granted Critical
Publication of CN112785056B publication Critical patent/CN112785056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于CatBoost和LSTM模型融合的短期负荷预测方法,包括以下步骤:S1、获取样本数据,提取样本数据的特征向量并进行预处理;S2、利用预处理后的样本数据,使用K折交叉验证分别训练得到多个CatBoost模型和LSTM模型;S3、利用Stacking策略,用RidgeRegression模型来融合CatBoost模型和LSTM模型的预测结果,用以构建混合模型,再使用混合模型来进行短期负荷的预测。本发明具有预测准确的优点。

Description

一种基于CatBoost和LSTM模型融合的短期负荷预测方法
技术领域
本发明涉及电力系统负荷预测技术领域,具体为一种基于CatBoost和LSTM模型融合的短期负荷预测方法。
背景技术
电力系统的稳定运行是社会高速发展的基础,保障电力系统运行的安全性和可靠性具有重要的意义。为了保障电力系统稳定运行,满足用户变化的用电需求,电力部门需要制定合理的电力调度方案,准确的短期负荷预测是制定科学合理的调度方案的必要条件。
短期负荷预测以日负荷值为预测目标,主要用来给电网的日常调度提供参考。短期负荷容易受到很多因素的影响,例如经济、天气、社会活动等因素,这些因素对负荷的影响都是非线性的,这使得精准的短期负荷预测成为了一个巨大的挑战。
传统的负荷预测方法主要包括线性回归模型和自回归移动平均模型。线性回归模型容易理解,实现方便,但缺点在于难以用于复杂的非线性拟合中。自回归移动平均模型是一种时间序列预测方法,对平稳的时间序列预测精度较高,但其高阶模型的参数估计较为困难,并且负荷序列多为非平稳序列,因此该方法具有很大的局限性。
随着人工智能技术和负荷预测技术的发展,越来越多机器学习和深度学习方法被用于解决负荷预测问题,这些模型凭借其强大的学习能力和泛化能力,对各种因素和负荷之间的非线性关系进行拟合,展示出了不俗的预测性能。
CatBoost是一种新颖且强大的梯度提升决策树算法,对类别型特征进行了有效的处理,在某些领域取得了优异的预测精度,而负荷预测问题中正有很多具有很大挖掘价值的类别型特征。神经网络模型广泛应用于各个领域中,其中,LSTM模型主要用于解决时间序列问题,而负荷预测问题就是典型的时间序列问题,历史负荷数据会对当前的负荷值产生影响。由于短期负荷值受到多种因素的影响,不同的模型关注的重点不同,单一的预测模型容易陷入局部最优解,导致预测结果出现误差。
发明内容
本发明的目的在于,提供一种基于CatBoost和LSTM模型融合的短期负荷预测方法。本发明具有预测准确的优点。
本发明的技术方案:一种基于CatBoost和LSTM模型融合的短期负荷预测方法,包括以下步骤:
S1、获取样本数据,提取样本数据的特征向量并进行预处理;
S2、利用预处理后的样本数据,使用K折交叉验证分别训练得到多个CatBoost模型和LSTM模型;
S3、利用Stacking策略,用RidgeRegression模型来融合CatBoost模型和LSTM模型的预测结果,用以构建混合模型,再使用混合模型来进行短期负荷的预测。
上述的基于CatBoost和LSTM模型融合的短期负荷预测方法,所述样本数据表示为:
{(x1,y1),(x2,y2),...,(xn,yn)};
其中:xi是第i个样本的特征向量,
Figure BDA0002911187980000031
m是特征维度;yi是第i个样本的负荷数据;
所述特征向量包括时间特征、天气特征、节假日特征、历史负荷特征;
所述时间特征包括年份、季度、月份、日、星期、一周的第几天和是否是周末;
所述天气特征包括日最高气温、日最低气温、日平均气温、日最大气温差、日最高湿度、日最低湿度、日平均湿度和日最大湿度差;
所述节假日特征包括该日是否为节假日和是否为调休日;
所述历史负荷特征包括使用前一周的历史负荷。
前述的基于CatBoost和LSTM模型融合的短期负荷预测方法,所述预处理包括缺失值的处理、归一化处理和独热编码;
所述缺失值处理是采用线性插值对样本数据中的缺失值进行补全,所述线性差值表示如下:
Figure BDA0002911187980000032
其中,
Figure BDA0002911187980000033
为缺失值,表示第n个样本的第k维特征向量;
Figure BDA0002911187980000034
表示第n-1个样本的第k维特征向量;
Figure BDA0002911187980000035
表示第n+1个样本的第k为特征向量;
所述归一化处理用于处理天气特征和历史负荷特征,归一化公式如下:
Figure BDA0002911187980000041
其中:
Figure BDA0002911187980000042
是归一化处理后的数据;x是原始数据;xmax是对应特征在样本数据中的最大值;xmin是对应特征在样本数据中的最小值;
所述独热编码用于处理时间特征和节假日特征;通过对时间特征和节假日特征进行独热编编码转换成二进制编码,用于LSTM模型的输入。
前述的基于CatBoost和LSTM模型融合的短期负荷预测方法,所述S2步骤具体如下:将经过预处理的样本数据作为训练集,在训练CatBoost模型和LSTM模型时,采用K折交叉验证法,取K为10,将训练集分为10份,通过10轮训练得到10个CatBoost模型和10个LSTM模型;
在每轮训练的时,依次用每份训练集中的其中9份作为测试集,剩余1份作为验证集,经过10次训练后,用每次训练得到的CatBoost模型和LSTM模型分别对验证集和测试集进行预测,将CatBoost模型和LSTM模型的各自的10个验证集预测结果对应拼接起来,得到原训练集的预测结果;将CatBoost模型和LSTM模型的各自的10个测试集的预测结果取平均值,得到测试集的预测结果。
前述的基于CatBoost和LSTM模型融合的短期负荷预测方法,所述S3步骤具体如下:
将CatBoost模型和LSTM模型作为Stacking第一层的基学习器,用一个RidgeRegression模型作为Stacking第二层的结合模型,将第一层的基学习器的输出作为第二层的结合模型的输入,构建一个混合模型;
将CatBoost模型和LSTM模型对验证集的预测结果拼接起来,作为第二层的训练集特征;将CatBoost模型和LSTM模型对测试集的预测结果作为第二层的测试集特征,得到最终的短期负荷预测。
与现有技术相比,本发明通过提取样本数据的特征向量并对其进行预处理,再利用预处理后的样本数据结合K折交叉验证分别得到训练得到多个CatBoost模型和LSTM模型,然后利用Stacking策略,用RidgeRegression模型来融合CatBoost模型和LSTM模型的预测结果,用以构建混合模型,再使用混合模型来进行短期负荷的预测。由此,本发明结合各个模型的预测结果来得到最终预测结果,可以吸取不同模型的优点从而提高预测精度;本发明通过Stacking策略提高了混合模型对特征向量和负荷之间关系的学习能力,提高了预测的准确性。此外,由于短期负荷值收到多种因素的影响,由此本发明采用的特征向量数量多、范围广,充分的考虑了不同因素对短期负荷的影响,从而可以适用于不同的模型进行结果预测,便于后续结合不同模型的预处理结果。
附图说明
图1为本发明方法的实现流程图;
图2为LSTM的结构图;
图3为本发明方法与现有技术的预测结果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:一种基于CatBoost和LSTM模型融合的短期负荷预测方法,本实施例以spyder为开发平台,以python为开发语言,CatBoost模型使用CatBoost机器学习库来实现,LSTM模型使用Keras深度学习库来实现,RidgeRegression模型使用sklearn机器学习库来实现;使用的样本数据是某市变电站测得的一年的负荷数据;如图1所示,包括以下步骤:
S1、获取样本数据,提取样本数据的特征向量并进行预处理;
所述样本数据表示为:
{(x1,y1),(x2,y2),...,(xn,yn)};
其中:xi是第i个样本的特征向量,
Figure BDA0002911187980000061
m是特征维度;yi是第i个样本的负荷数据;
所述特征向量包括时间特征、天气特征、节假日特征、历史负荷特征;
所述时间特征包括年份、季度、月份、日、星期、一周的第几天和是否是周末;
所述天气特征包括日最高气温、日最低气温、日平均气温、日最大气温差、日最高湿度、日最低湿度、日平均湿度和日最大湿度差;
所述节假日特征包括该日是否为节假日和是否为调休日;
所述历史负荷特征包括使用前一周的历史负荷。
其中,时间特征以及节假日特征都属于类别型特征,特征值只在有限选项内取值,而天气特征和历史负荷特征都属于数值型特征。
所述预处理包括缺失值的处理、归一化处理和独热编码;
所述缺失值处理是采用线性插值对样本数据中的缺失值进行补全,所述线性差值表示如下:
Figure BDA0002911187980000071
其中,
Figure BDA0002911187980000072
为缺失值,表示第n个样本的第k维特征向量;
Figure BDA0002911187980000073
表示第n-1个样本的第k维特征向量;
Figure BDA0002911187980000074
表示第n+1个样本的第k为特征向量;
所述归一化处理用于处理天气特征和历史负荷特征等数值型特征,通过归一化处理将数据都转换到[0,1]的范围内,归一化公式如下:
Figure BDA0002911187980000075
其中:
Figure BDA0002911187980000076
是归一化处理后的数据;x是原始数据;xmax是对应特征在样本数据中的最大值;xmin是对应特征在样本数据中的最小值;
所述独热编码用于处理时间特征和节假日特征;通过对时间特征和节假日特征进行独热编编码转换成二进制编码,用于LSTM模型的输入。在训练LSTM模型时,类别型特征不可以直接输入到模型中,LSTM模型不具备处理类别型特征的能力,需要对时间特征以及节假日特征等类别型特征进行独热编码,将类别型特征转换为二进制编码。而在训练CatBoost模型时,可以不进行对类别型特征进行独热编码,CatBoost模型可以自己将类别型特征转换为数值型特征。
S2、利用预处理后的样本数据,使用K折交叉验证分别训练得到多个CatBoost模型和LSTM模型;具体如下:将经过预处理的样本数据作为训练集,在训练CatBoost模型和LSTM模型时,采用K折交叉验证法(K折交叉验证法是将原始数据D随机分成K份,每次选择(K-1)份作为训练集,剩余的1份(红色部分)作为测试集。交叉验证重复K次,取K次准确率的平均值作为最终模型的评价指标),取K为10,将训练集分为10份,通过10轮训练得到10个CatBoost模型和10个LSTM模型;
在每轮训练的时,依次用每份训练集中的其中9份作为测试集,剩余1份作为验证集,经过10次训练后,用每次训练得到的CatBoost模型和LSTM模型分别对验证集和测试集进行预测,将CatBoost模型和LSTM模型的各自的10个验证集预测结果对应拼接起来,得到原训练集的预测结果;将CatBoost模型和LSTM模型的各自的10个测试集的预测结果取平均值,得到测试集的预测结果。
需要说明的是,CatBoost是一种梯度提升决策树算法,由很多决策树组成,每一棵决策树是在当前的残差的基础上来学习得到的,关注的重点是当前的残差与特征之间的关系;LSTM模型是一种循环神经网络,其输入是时间序列,关注的重点是每个时间序列中各个时序点之间的函数关系。
CatBoost是一种新颖的梯度提升决策树算法,可以更好地处理类别特征。传统的GBDT算法不支持类别型特征,在使用类别型特征前需要进行预处理,最常见的预处理方式是独热编码,独热编码的缺点是容易导致特征变得稀疏。CatBoost在训练数据时可以将类别型特征转换为数值型特征。CatBoost使用目标变量统计值(target statistics,TS)来处理类别型特征,CatBoost先对数据集进行一次随机排列,然后使用TS来估算每个类别的目标变量期望值,TS的公式为:
Figure BDA0002911187980000091
为了更好地阐述这个公式,假设
Figure BDA0002911187980000092
是样本集中第k个样本的特征向量,维度为m,其中第i维特征为需要转换的类别型特征,yk是对应的目标值,在这里即负荷值。对于一个训练样本xk,Dk表示在CatBoost的随机排列中排在此样本前的子数据集。
Figure BDA0002911187980000093
表示当
Figure BDA0002911187980000094
时,该表达式的值为1,不等于时为0。为了减小低频类别数据的噪声,引入P和β这两个值,P是先验值,在这里设置为样本中的平均负荷值,β是先验值的权重。
在负荷预测问题中,有很多类别型特征,比如时间特征和节假日特征,在建立CatBoost模型时,不用在预处理阶段将这些类别型特征转换为数值型特征,CatBoost可以很好地处理这些类别型特征。
如图2所示,LSTM基于循环神经网络RNN算法,是一种输入为时间序列的神经网络。在LSTM模型中,一些隐藏神经元的输出会作为状态,被保留在网络模型中,这部分输出会和下一个时间段的其他数据共同作为输入送给当前神经元,将状态值在自身网络中循环传递,因此在LSTM中当前神经元的输出会受到历史数据的影响,适用于处理电力负荷预测这类的时间序列问题。
LSTM添加了很多“门”结构来提高当前神经元从历史数据中提取信息的能力,包括输入门it、输出门ft、遗忘门ot这三个控制门。三个控制门都是介于[0,1]区间的系数,并且每一个神经元都将计算得到的状态值St和输出值yt作为下一个神经元的输入。
三个门系数的公式如下计算:
it=σ(Wi·[yt+1,xt]+bi);
ft=σ(Wf·[yt-1,xt]+bf);
ot=σ(Wo·[yt-1,xt]+bo);
其中,Wi、Wf、Wo分别是三个控制门的权值矩阵,bi、bf、bo分别是对应的偏置量,σ是ReLU函数;
然后根据当前时刻的输入xt和上一时刻的输出yt-1来计算当前神经元的候选状态值
Figure BDA0002911187980000111
Figure BDA0002911187980000112
其中Ws和bs分别是候选状态的权值矩阵和偏置量;
当前时刻的状态值由上一时刻的状态值和当前的候选状态值得到,由遗忘门ot和输入门it来决定相应的比例:
Figure BDA0002911187980000113
最后计算当前时刻的输出值yt
yt=ot*tanh(St)。
S3、利用Stacking策略,用RidgeRegression模型来融合CatBoost模型和LSTM模型的预测结果,用以构建混合模型,再使用混合模型来进行短期负荷的预测。构成混合模型的基学习器是CatBoost模型和LSTM模型,当构建混合模型的基学习器关注的方面不同,具有多样性的特点时,混合模型可以更好地学习到两者的优点。
具体如下:
将CatBoost模型和LSTM模型作为Stacking第一层的基学习器,用一个RidgeRegression模型作为Stacking第二层的结合模型,将第一层的基学习器的输出作为第二层的结合模型的输入,构建一个混合模型;
将CatBoost模型和LSTM模型对验证集的预测结果拼接起来,作为第二层的训练集特征;将CatBoost模型和LSTM模型对测试集的预测结果作为第二层的测试集特征,得到最终的短期负荷预测。
本实施例使用平均绝对百分比误差(MAPE)、均方根误差(RMSE)、平均绝对误差(MAE)这三种指标来评价预测结果:
Figure BDA0002911187980000121
Figure BDA0002911187980000122
Figure BDA0002911187980000123
其中,N是样本的数量,yi是第i个样本的负荷预测值,
Figure BDA0002911187980000124
是第i个样本的负荷实际值。
申请对采用现有技术中的GBDT模型、CatBoost模型、LSTM和本实施构建的CatBoost和LSTM混合模型进行预测结果对比,预测结果对比如图3和表1所示。
Figure BDA0002911187980000131
表1
从表1的MAPE,RMSE,MAE三个指标中都可以看到,本实施例的预测结果误差值均为最小,说明结果最为准确的,同时从图1中的单日预测曲线图(图中的Stacking—CatBoost+LSTM为本实施例的预测曲线)来看,本发明预测的短期负荷与实际负荷均非常接近,说明本发明具有优越的预测性能。
综上所述,本发明结合各个模型的预测结果来得到最终预测结果,可以吸取不同模型的优点从而提高预测精度;本发明通过Stacking策略提高了混合模型对特征向量和负荷之间关系的学习能力,提高了预测的准确性。

Claims (3)

1.一种基于CatBoost和LSTM模型融合的短期负荷预测方法,其特征在于:包括以下步骤:
S1、获取样本数据,提取样本数据的特征向量并进行预处理;
S2、利用预处理后的样本数据,使用K折交叉验证分别训练得到多个CatBoost模型和LSTM模型;
S3、利用Stacking策略,用RidgeRegression模型来融合CatBoost模型和LSTM模型的预测结果,用以构建混合模型,再使用混合模型来进行短期负荷的预测;
所述样本数据表示为:
{(x1,y1),(x2,y2),...,(xn,yn)};
其中:xi是第i个样本的特征向量,
Figure FDA0003873485510000011
m是特征维度;yi是第i个样本的负荷数据;
所述特征向量包括时间特征、天气特征、节假日特征、历史负荷特征;
所述时间特征包括年份、季度、月份、日、星期、一周的第几天和是否是周末;
所述天气特征包括日最高气温、日最低气温、日平均气温、日最大气温差、日最高湿度、日最低湿度、日平均湿度和日最大湿度差;
所述节假日特征包括该日是否为节假日和是否为调休日;
所述历史负荷特征包括使用前一周的历史负荷;
将CatBoost模型和LSTM模型作为Stacking第一层的基学习器,用一个RidgeRegression模型作为Stacking第二层的结合模型,将第一层的基学习器的输出作为第二层的结合模型的输入,构建一个混合模型;
将CatBoost模型和LSTM模型对验证集的预测结果拼接起来,作为第二层的训练集特征;将CatBoost模型和LSTM模型对测试集的预测结果作为第二层的测试集特征,得到最终的短期负荷预测。
2.根据权利要求1所述的基于CatBoost和LSTM模型融合的短期负荷预测方法,其特征在于:所述预处理包括缺失值的处理、归一化处理和独热编码;
所述缺失值处理是采用线性插值对样本数据中的缺失值进行补全,所述线性插值 表示如下:
Figure FDA0003873485510000021
其中,
Figure FDA0003873485510000022
为缺失值,表示第n个样本的第k维特征向量;
Figure FDA0003873485510000023
表示第n-1个样本的第k维特征向量;
Figure FDA0003873485510000024
表示第n+1个样本的第k为特征向量;
所述归一化处理用于处理天气特征和历史负荷特征,归一化公式如下:
Figure FDA0003873485510000031
其中:
Figure FDA0003873485510000032
是归一化处理后的数据;x是原始数据;xmax是对应特征在样本数据中的最大值;xmin是对应特征在样本数据中的最小值;
所述独热编码用于处理时间特征和节假日特征;通过对时间特征和节假日特征进行独热编码转换成二进制编码,用于LSTM模型的输入。
3.根据权利要求1所述的基于CatBoost和LSTM模型融合的短期负荷预测方法,其特征在于:所述S2步骤具体如下:将经过预处理的样本数据作为训练集,在训练CatBoost模型和LSTM模型时,采用K折交叉验证法,取K为10,将训练集分为10份,通过10轮训练得到10个CatBoost模型和10个LSTM模型;
在每轮训练的时,依次用每份训练集中的其中9份作为测试集,剩余1份作为验证集,经过10次训练后,用每次训练得到的CatBoost模型和LSTM模型分别对验证集和测试集进行预测,将CatBoost模型和LSTM模型的各自的10个验证集预测结果对应拼接起来,得到原训练集的预测结果;将CatBoost模型和LSTM模型的各自的10个测试集的预测结果取平均值,得到测试集的预测结果。
CN202110086845.7A 2021-01-22 2021-01-22 一种基于CatBoost和LSTM模型融合的短期负荷预测方法 Active CN112785056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086845.7A CN112785056B (zh) 2021-01-22 2021-01-22 一种基于CatBoost和LSTM模型融合的短期负荷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086845.7A CN112785056B (zh) 2021-01-22 2021-01-22 一种基于CatBoost和LSTM模型融合的短期负荷预测方法

Publications (2)

Publication Number Publication Date
CN112785056A CN112785056A (zh) 2021-05-11
CN112785056B true CN112785056B (zh) 2023-04-28

Family

ID=75758574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086845.7A Active CN112785056B (zh) 2021-01-22 2021-01-22 一种基于CatBoost和LSTM模型融合的短期负荷预测方法

Country Status (1)

Country Link
CN (1) CN112785056B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及系统
CN113705915A (zh) * 2021-09-01 2021-11-26 沈阳建筑大学 一种基于cnn-lstm-arima组合短期电力负荷预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI662422B (zh) * 2018-04-23 2019-06-11 國家中山科學研究院 Air quality prediction method based on machine learning model
CN109359788B (zh) * 2018-12-06 2021-08-17 西南交通大学 一种高速列车初始晚点影响预测模型的建立方法
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统
CN110969285B (zh) * 2019-10-29 2023-04-07 京东方科技集团股份有限公司 预测模型训练方法、预测方法、装置、设备及介质
CN112070316A (zh) * 2020-09-17 2020-12-11 四川长虹电器股份有限公司 基于catboost算法和集成学习的短期负荷预测方法及系统

Also Published As

Publication number Publication date
CN112785056A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN109255505B (zh) 一种多模型融合神经网络的短期负荷预测方法
CN110580543A (zh) 一种基于深度信念网络的电力负荷预测方法及系统
CN112785056B (zh) 一种基于CatBoost和LSTM模型融合的短期负荷预测方法
CN112733444A (zh) 基于CycleGAN神经网络的多步长时间序列预测方法
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN110956309A (zh) 基于crf和lstm的流程活动预测方法
CN111709519B (zh) 一种深度学习并行计算架构方法及其超参数自动配置优化
CN111985719B (zh) 一种基于改进的长短期记忆网络的电力负荷预测方法
CN113344288B (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN113360848A (zh) 一种时序数据预测方法及装置
CN111612262A (zh) 一种基于分位数回归的风电功率概率预测方法
Akpinar et al. Forecasting natural gas consumption with hybrid neural networks—Artificial bee colony
CN116843083A (zh) 基于混合神经网络模型的碳排放预测系统及方法
CN112508286A (zh) 一种基于Kmeans-BiLSTM-DMD模型的短期负荷预测方法
CN114926009A (zh) 基于改进Transformer神经网络的机组组合两阶段快速求解方法
CN114817773A (zh) 一种基于多级分解和融合的时序预测系统及方法
CN115545345A (zh) 一种基于gru-tcn模型的电网负荷预测方法
AU2021106200A4 (en) Wind power probability prediction method based on quantile regression
Wu et al. Discovering Mathematical Expressions Through DeepSymNet: A Classification-Based Symbolic Regression Framework
Luo et al. A novel nonlinear combination model based on support vector machine for stock market prediction
CN115860277B (zh) 一种数据中心能耗预测方法及系统
CN116700011A (zh) 一种增强深度Transformer-Attention集成预测的分数阶微积分降能引导方法
Kao et al. Stability of high-order delayed Markovian jumping reaction-diffusion HNNs with uncertain transition rates
Liu et al. Short-term Load Forecasting Method Based on LSTM-Attention Mechanism
CN115168864A (zh) 一种基于特征交叉的智能交叉合约漏洞检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant