CN112613636A - 一种基于特征工程的XGboost风速短期预测方法 - Google Patents

一种基于特征工程的XGboost风速短期预测方法 Download PDF

Info

Publication number
CN112613636A
CN112613636A CN202011338697.5A CN202011338697A CN112613636A CN 112613636 A CN112613636 A CN 112613636A CN 202011338697 A CN202011338697 A CN 202011338697A CN 112613636 A CN112613636 A CN 112613636A
Authority
CN
China
Prior art keywords
wind speed
sequence
time
xgboost
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011338697.5A
Other languages
English (en)
Inventor
张峰
吴卫东
钱宇
代晶
宋珊珊
伍绍铖
谢诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Jiangyin Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Jiangyin Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Jiangyin Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011338697.5A priority Critical patent/CN112613636A/zh
Publication of CN112613636A publication Critical patent/CN112613636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Wind Motors (AREA)

Abstract

本发明公开了一种基于特征工程的用于风电机组风速预测的方法,提供了一种能够对风能的属性进行更准确表征的良好模型。该方法的主要步骤包括:一、采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;二、对原始数据集进行数据预处理,将风速时间序列包含的数字特征提取出来形成特征序列,与原有时间序列结合成为风速时间‑特征序列,作为预测模型的输入;三、采用XGboost算法对步骤二提取风速时间—特征序列进行训练建模,得到风速预测模型;四、采用风速预测模型对风速时间‑特征序列进行预测,得到风速预测数据。该方法创新性的将特征选择与特征提取结合起来,构建风速时间‑特征序列做为预测模型输入,该模型能够进一步提高风速预测的精度。

Description

一种基于特征工程的XGboost风速短期预测方法
技术领域
本发明涉及一种风电场短期风速预测领域,尤其是涉及一种基于特征工程的XGboost(eXtreme Gradient Boosting, XGboost)风速短期预测方法。
背景技术
中国新能源发电装机规模将继续快速扩大。大量风机的接入将给电网带来很大冲击,准确快速的风速预测能够给电网调度提供信息,提前做好调度准备,有效降低风电并网危害。
目前对于风速预测模型方面的研究,可以分为物理模型以及统计模型。物理模型对于超过6小时的风速预测准确度更高,该模型关注天气对风速的影响,使用风速、风向、温度、压力、地形粗糙度、风电场布局和数值天气预报作为整个模型的输入,以此来预测未来的风速数据。但是该模型训练过程中数据获取条件较其它方法苛刻,普适性不强,需要超级计算机系统的支持才能获取精确的预测结果。
统计模型是利用历史时间序列数据进行预测的一种方法,而目前的统计模型相关研究中几乎都只针对序列本身进行研究,数据利用度不高。XGboost是在梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的基础上,在算法上和工程上作出了许多改进,能够多线程实现回归树的并行构建,将计算速度和效率发挥到了极致。本文创新性地提出了一种数据预处理方法,将风速序列包含的数字特征提取出来形成特征序列,与原有时间序列结合成为时间-特征序列,采用XGboost算法对风速时间-特征序列进行预测。
发明内容
本发明的目的在于考虑到风速的非线性及不稳定性,如何进一步提高风速预测模型的准确性。
为了解决上述技术问题,本发明的技术方案是提供了一种风电场短期风速预测方法,其特征在于,包括以下步骤:
步骤一:采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;
步骤二:对原始数据集进行数据预处理,采用滑窗的方法,将基于原始数据集的风速时间序列展开形成风速滑窗时间序列;将基于原始数据集的风速时间序列包含的统计数字特征提取出来形成数字特征序列,风速滑窗时间序列与数字特征序列结合成为风速时间-特征序列,作为预测模型的输入;
步骤三:采用XGboost算法对步骤二提取风速时间-特征序列进行训练建模,得到风速预测模型;
步骤四:采用风速预测模型对风速时间-特征序列进行预测,得到风速预测数据。
所述步骤一中,对原始风速数据集进行统计,对部分缺省数据做删除预处理;
所述步骤二中,对原始数据集进行数据预处理,采用滑窗的方法,设置窗口大小为25,将一维的风速序列展开成25维的风速滑窗序列,对每个滑窗内部的数据提取一组统计数字特征序列,包含数学期望,最大值,最小值,标准差,极差等5种数字特征,将特征序列与滑窗时间序列结合后形成时间-特征序列。
所述步骤三中,采用XGboost算法对步骤二提取风速时间-特征序列进行训
练建模,得到风速预测模型,该算法各计算定义如下:
XGboost目标函数:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为损失函数,计算预测值与真实值的偏差,
Figure DEST_PATH_IMAGE003
为正则项,用来
进行剪枝操作,防止过拟合。
第t次迭代时的目标函数:
Figure DEST_PATH_IMAGE004
基于前t-1次的预测值将误差函数在
Figure DEST_PATH_IMAGE005
处二阶泰勒展开:
Figure DEST_PATH_IMAGE006
式中:
Figure DEST_PATH_IMAGE007
;
Figure DEST_PATH_IMAGE008
正则项具体如式:
Figure DEST_PATH_IMAGE009
式中:T为叶子节点的数目;
Figure DEST_PATH_IMAGE010
为叶子节点对应的值的向量。
对树函数f作变换:
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
统一i,j的求和:
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
,求得
Figure DEST_PATH_IMAGE015
XGboost算法的打分函数:
Figure DEST_PATH_IMAGE016
本发明首先采用滑窗法提取风速时间-特征序列,将该序列做为预测模型的输入,接着采用XGboost算法建立风速预测模型,对风速时间-特征序列进行短期预测。实验结果显示该方法能有效提高短期风速模型的预测精度。
附图说明
图1为本发明一种基于灰度共生矩阵的短期风速预测方法的XGboost风速短期预测流程示意图。
图2为本发明XGboost算法的流程示意图。
具体实施方式
本发明提出一种基于灰度共生矩阵的短期风速预测方法,其流程示意图如图1所示,下面将实施的方案进行详细阐述,该方法包括以下步骤。
步骤1:采集风场历史实测风速数据,构建基础的基于时间序列的风速原始数据集,比如原始数据集为某风电场2020年1月-2020年10月间的风电机组端实测风速数据,采样间隔为10分钟,对部分缺省数据做删除预处理后,共得到数据量34644个;
步骤2:对原始数据集进行数据预处理,采用滑窗的方法,设置窗口大小为25,将一维的风速序列展开成25维的风速滑窗时间序列,对每个滑窗内部的数据提取一组统计数字特征形成数字特征序列,统计数字特征包含数学期望、最大值、最小值、标准差、极差等5种数字特征,将数字特征序列与风速滑窗时间序列结合后形成时间-特征序列;对于输出数据,则取数据的第26个数据点开始往后的数据。
最后形成了三种序列,分别为:
风速滑窗时间序列:单独的滑窗数据序列,25维;
数字特征序列:单独的数字特征序列,5维;
时间-特征序列:将风速滑窗时间序列与数字特征序列结合起来,构成了30维的模型训练输入数据;
步骤3:采用XGboost算法对步骤2提取风速时间-特征序列进行训练建模,设置前34000组输入输出数据为训练集,后619组输入输出数据为验证集;设置XGboost算法模型参数:深度为5;学习率为0.007;objective='reg:gamma';该算法内容如下:
XGboost算法的基本思想是使用贪心法枚举出所有节点,计算各个节点分裂前后的信息增益,选出信息增益最大的,再进行切分,以此类推。
XGboost目标函数:
Figure DEST_PATH_IMAGE017
其中,
Figure 216534DEST_PATH_IMAGE002
为损失函数,计算预测值与真实值的偏差,
Figure DEST_PATH_IMAGE018
为正则项,用来
进行剪枝操作,防止过拟合。
第t次迭代时的目标函数:
Figure DEST_PATH_IMAGE019
基于前t-1次的预测值将误差函数在
Figure 258308DEST_PATH_IMAGE005
处二阶泰勒展开:
Figure DEST_PATH_IMAGE020
式中:
Figure DEST_PATH_IMAGE021
;
Figure DEST_PATH_IMAGE022
正则项具体如式:
Figure DEST_PATH_IMAGE023
式中:T为叶子节点的数目;
Figure DEST_PATH_IMAGE024
为叶子节点对应的值的向量。
对树函数f作变换:
Figure DEST_PATH_IMAGE025
Figure 349630DEST_PATH_IMAGE012
统一i,j的求和:
Figure 744839DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE026
,求得
Figure 496894DEST_PATH_IMAGE015
XGboost算法的打分函数:
Figure 319357DEST_PATH_IMAGE016
该算法流程为:
Step1: 初始化,输入训练集样本I,迭代次数T,损失函数L,正则化系数γ,λ,初始迭代次数t=1;
Step2:计算所有样本在当前轮损失函数L基于预测值的一阶导数和
Figure DEST_PATH_IMAGE027
和二阶导数和
Figure DEST_PATH_IMAGE028
Step3:设置特征序号k=1,设置默认参数score=0,
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
Step4:将样本按特征k从小到大排列,一次取出样本,计算样本放入子树后新的
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
Step5:更新分数:
Figure DEST_PATH_IMAGE033
Step6:判断特征序列k是否为特征总数K,若是,则到下一步;若否,执行k=k+1且返回Step3;
Step7:分裂子树,基于最大score对应的划分特征和特征值分裂子树
Step8:判断score是否为0,若是,则到下一步;若否,则返回Step3继续执行特征划分;
Step9:判断t是否为T+1,若是,则流程结束;若否,则执行t=t+1且返回Step2开始下一次迭代。
XGboost算法流程图如图2所示。
使用测试集检验预测模型的准确度,采用以下五种预测精度分析评价标准进行预测误差分析与评价,进而修正最终的风速预测模型,分别为:归一化均方根误差RMSE、均方误差平方和MSE、平均绝对误差MAE、误差最大值以及绝对中位差;其计算如下式所示:
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
其中,n表示数据的总数,
Figure DEST_PATH_IMAGE038
表示时间i的预测值,
Figure DEST_PATH_IMAGE039
表示时间i的实际值。
步骤四:根据步骤三中验证后的风速预测模型对风速时间-特征序列进行预测,得到短期的风速预测数据;根据预测的短期风速为风电场运行提供决策支持。
具体对于风电场而言,风机端控制系统可以根据预测的短期风速提前进行变桨动作或进行风能捕获最大化调节;对于电网调度而言,通过预测短期风速估算风电场发电功率情况,进行人为或自动干预作出最优调度决策。

Claims (4)

1.一种基于特征工程的XGboost风速短期预测方法,其特征在于,包括以下步骤:
步骤一、采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;
步骤二、对原始数据集进行数据预处理:采用滑窗的方法,将基于原始数据集的风速时间序列展开形成风速滑窗时间序列;将基于原始数据集的风速时间序列包含的统计数字特征提取出来形成数字特征序列,风速滑窗时间序列与数字特征序列结合成为风速时间-特征序列,作为预测模型的输入;
步骤三、采用极端梯度提升算法对步骤二提取风速时间-特征序列进行训练建模,得到风速预测模型;
步骤四、采用风速预测模型对风速时间-特征序列进行预测,得到风速预测数据。
2.根据权利要求1所述一种基于特征工程的XGboost风速短期预测方法,其特征在于,步骤一种所述获取风电机组端风速数据具体包括,t时刻对应的风速大小
Figure 126540DEST_PATH_IMAGE001
,构建基础的基于时间序列的风速原始数据集。
3.根据权利要求1所述一种基于特征工程的XGboost风速短期预测方法,其特征在于,步骤二中,采用滑窗采样的方法,对每个滑窗内部的数据提取一组统计数字特征序列,将特征序列与滑窗时间序列结合形成时间-特征序列,作为预测模型的输入。
4.根据权利要求1所述一种基于特征工程的XGboost风速短期预测方法,其特征在于,步骤三种,采用XGboost算法对步骤二提取风速时间-特征序列进行训练建模,得到风速预测模型,模型计算组件可以描述为:
XGboost目标函数为:
Figure 305848DEST_PATH_IMAGE002
式中,
Figure 580972DEST_PATH_IMAGE003
为损失函数,计算预测值与真实值的偏差,
Figure 224443DEST_PATH_IMAGE004
为正则项,用来进行剪枝操作,防止过拟合;
第t次迭代时的目标函数为:
Figure 752419DEST_PATH_IMAGE005
正则项具体表达式为:
Figure 481341DEST_PATH_IMAGE006
式中,T为叶子节点的数目;w为叶子节点对应的值的向量;
XGboost算法的打分函数:
Figure 560155DEST_PATH_IMAGE007
CN202011338697.5A 2020-11-25 2020-11-25 一种基于特征工程的XGboost风速短期预测方法 Pending CN112613636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011338697.5A CN112613636A (zh) 2020-11-25 2020-11-25 一种基于特征工程的XGboost风速短期预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011338697.5A CN112613636A (zh) 2020-11-25 2020-11-25 一种基于特征工程的XGboost风速短期预测方法

Publications (1)

Publication Number Publication Date
CN112613636A true CN112613636A (zh) 2021-04-06

Family

ID=75225634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011338697.5A Pending CN112613636A (zh) 2020-11-25 2020-11-25 一种基于特征工程的XGboost风速短期预测方法

Country Status (1)

Country Link
CN (1) CN112613636A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344252A (zh) * 2021-05-18 2021-09-03 平衡机器科技(深圳)有限公司 一种基于虚拟气象技术的风功率预测方法
CN113392575A (zh) * 2021-05-17 2021-09-14 桂林电子科技大学 基于滑窗特征的风机主轴故障预测方法
CN114239743A (zh) * 2021-12-22 2022-03-25 电子科技大学 一种基于稀疏时间序列数据的事件发生时间预测方法
CN114252706A (zh) * 2021-12-15 2022-03-29 华中科技大学 一种雷电预警方法和系统
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228978A (zh) * 2017-12-15 2018-06-29 四川金网通电子科技有限公司 结合互补集合经验模态分解的Xgboost时间序列预测方法
CN111401941A (zh) * 2020-03-06 2020-07-10 武汉大学 一种基于XGBoost推荐算法的车辆销量预测方法
CN111582551A (zh) * 2020-04-15 2020-08-25 中南大学 风电场短期风速预测方法、系统及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228978A (zh) * 2017-12-15 2018-06-29 四川金网通电子科技有限公司 结合互补集合经验模态分解的Xgboost时间序列预测方法
CN111401941A (zh) * 2020-03-06 2020-07-10 武汉大学 一种基于XGBoost推荐算法的车辆销量预测方法
CN111582551A (zh) * 2020-04-15 2020-08-25 中南大学 风电场短期风速预测方法、系统及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈豫: "基于XGBoost算法的短期负荷预测研究", 水利水电技术, vol. 50, pages 257 - 260 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392575A (zh) * 2021-05-17 2021-09-14 桂林电子科技大学 基于滑窗特征的风机主轴故障预测方法
CN113392575B (zh) * 2021-05-17 2023-06-20 桂林电子科技大学 基于滑窗特征的风机主轴故障预测方法
CN113344252A (zh) * 2021-05-18 2021-09-03 平衡机器科技(深圳)有限公司 一种基于虚拟气象技术的风功率预测方法
CN114252706A (zh) * 2021-12-15 2022-03-29 华中科技大学 一种雷电预警方法和系统
CN114252706B (zh) * 2021-12-15 2023-03-14 华中科技大学 一种雷电预警方法和系统
CN114239743A (zh) * 2021-12-22 2022-03-25 电子科技大学 一种基于稀疏时间序列数据的事件发生时间预测方法
CN114239743B (zh) * 2021-12-22 2023-12-15 电子科技大学 一种基于稀疏时间序列数据的天气事件发生时间预测方法
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Similar Documents

Publication Publication Date Title
CN112613636A (zh) 一种基于特征工程的XGboost风速短期预测方法
CN110674604B (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN109802430B (zh) 一种基于LSTM-Attention网络的风电电网控制方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN113468817B (zh) 一种基于igoa优化elm的超短期风电功率预测方法
CN113344288A (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN116796141A (zh) 一种基于gbdt回归模型的办公建筑能耗预测方法
CN113435595B (zh) 基于自然进化策略的极限学习机网络参数两阶段优化方法
CN109388863B (zh) 一种基于arima模型的分布式光伏出力功率预测方法
CN110766215A (zh) 基于特征自适应选择和wdnn的风电爬坡事件预测方法
CN110276478B (zh) 基于分段蚁群算法优化svm的短期风电功率预测方法
CN110555566B (zh) 一种基于b样条分位数回归的光电概率密度预测方法
CN116757321A (zh) 太阳直接辐射量预测方法、系统、设备及存储介质
CN116085245A (zh) 一种基于os-elm的压缩机性能在线预测方法及系统
CN113610665B (zh) 一种基于多延迟输出回声状态网的风力发电功率预测方法
CN115545279A (zh) 一种风电场风电功率预测方法
CN113095547B (zh) 一种基于gra-lstm-ice模型的短期风功率预测方法
CN114897260A (zh) 基于lstm神经网络的短期风速预测模型建模方法及预测方法
CN114881312A (zh) 基于改进深度森林的短期风功率预测方法
CN117633449B (zh) 基于Spark-Cassandra框架的DE-DOA改进RRDBNet降水数据降尺度方法
CN116449460B (zh) 基于卷积UNet和迁移学习的区域月降水预测方法及系统
CN117081064B (zh) 一种基于误差评估的风电功率组合预测方法和系统
CN112380041B (zh) 一种基于xgboost的指控通信装备故障预测方法
CN116305588B (zh) 一种风洞试验数据异常检测方法、电子设备及存储介质
CN116819485A (zh) 一种基于pso-elm算法的林分郁闭度反演方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination