CN112613636A - 一种基于特征工程的XGboost风速短期预测方法 - Google Patents
一种基于特征工程的XGboost风速短期预测方法 Download PDFInfo
- Publication number
- CN112613636A CN112613636A CN202011338697.5A CN202011338697A CN112613636A CN 112613636 A CN112613636 A CN 112613636A CN 202011338697 A CN202011338697 A CN 202011338697A CN 112613636 A CN112613636 A CN 112613636A
- Authority
- CN
- China
- Prior art keywords
- wind speed
- sequence
- time
- xgboost
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013138 pruning Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000012821 model calculation Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000013179 statistical model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Wind Motors (AREA)
Abstract
本发明公开了一种基于特征工程的用于风电机组风速预测的方法,提供了一种能够对风能的属性进行更准确表征的良好模型。该方法的主要步骤包括:一、采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;二、对原始数据集进行数据预处理,将风速时间序列包含的数字特征提取出来形成特征序列,与原有时间序列结合成为风速时间‑特征序列,作为预测模型的输入;三、采用XGboost算法对步骤二提取风速时间—特征序列进行训练建模,得到风速预测模型;四、采用风速预测模型对风速时间‑特征序列进行预测,得到风速预测数据。该方法创新性的将特征选择与特征提取结合起来,构建风速时间‑特征序列做为预测模型输入,该模型能够进一步提高风速预测的精度。
Description
技术领域
本发明涉及一种风电场短期风速预测领域,尤其是涉及一种基于特征工程的XGboost(eXtreme Gradient Boosting, XGboost)风速短期预测方法。
背景技术
中国新能源发电装机规模将继续快速扩大。大量风机的接入将给电网带来很大冲击,准确快速的风速预测能够给电网调度提供信息,提前做好调度准备,有效降低风电并网危害。
目前对于风速预测模型方面的研究,可以分为物理模型以及统计模型。物理模型对于超过6小时的风速预测准确度更高,该模型关注天气对风速的影响,使用风速、风向、温度、压力、地形粗糙度、风电场布局和数值天气预报作为整个模型的输入,以此来预测未来的风速数据。但是该模型训练过程中数据获取条件较其它方法苛刻,普适性不强,需要超级计算机系统的支持才能获取精确的预测结果。
统计模型是利用历史时间序列数据进行预测的一种方法,而目前的统计模型相关研究中几乎都只针对序列本身进行研究,数据利用度不高。XGboost是在梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的基础上,在算法上和工程上作出了许多改进,能够多线程实现回归树的并行构建,将计算速度和效率发挥到了极致。本文创新性地提出了一种数据预处理方法,将风速序列包含的数字特征提取出来形成特征序列,与原有时间序列结合成为时间-特征序列,采用XGboost算法对风速时间-特征序列进行预测。
发明内容
本发明的目的在于考虑到风速的非线性及不稳定性,如何进一步提高风速预测模型的准确性。
为了解决上述技术问题,本发明的技术方案是提供了一种风电场短期风速预测方法,其特征在于,包括以下步骤:
步骤一:采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;
步骤二:对原始数据集进行数据预处理,采用滑窗的方法,将基于原始数据集的风速时间序列展开形成风速滑窗时间序列;将基于原始数据集的风速时间序列包含的统计数字特征提取出来形成数字特征序列,风速滑窗时间序列与数字特征序列结合成为风速时间-特征序列,作为预测模型的输入;
步骤三:采用XGboost算法对步骤二提取风速时间-特征序列进行训练建模,得到风速预测模型;
步骤四:采用风速预测模型对风速时间-特征序列进行预测,得到风速预测数据。
所述步骤一中,对原始风速数据集进行统计,对部分缺省数据做删除预处理;
所述步骤二中,对原始数据集进行数据预处理,采用滑窗的方法,设置窗口大小为25,将一维的风速序列展开成25维的风速滑窗序列,对每个滑窗内部的数据提取一组统计数字特征序列,包含数学期望,最大值,最小值,标准差,极差等5种数字特征,将特征序列与滑窗时间序列结合后形成时间-特征序列。
所述步骤三中,采用XGboost算法对步骤二提取风速时间-特征序列进行训
练建模,得到风速预测模型,该算法各计算定义如下:
XGboost目标函数:
进行剪枝操作,防止过拟合。
第t次迭代时的目标函数:
正则项具体如式:
对树函数f作变换:
统一i,j的求和:
XGboost算法的打分函数:
本发明首先采用滑窗法提取风速时间-特征序列,将该序列做为预测模型的输入,接着采用XGboost算法建立风速预测模型,对风速时间-特征序列进行短期预测。实验结果显示该方法能有效提高短期风速模型的预测精度。
附图说明
图1为本发明一种基于灰度共生矩阵的短期风速预测方法的XGboost风速短期预测流程示意图。
图2为本发明XGboost算法的流程示意图。
具体实施方式
本发明提出一种基于灰度共生矩阵的短期风速预测方法,其流程示意图如图1所示,下面将实施的方案进行详细阐述,该方法包括以下步骤。
步骤1:采集风场历史实测风速数据,构建基础的基于时间序列的风速原始数据集,比如原始数据集为某风电场2020年1月-2020年10月间的风电机组端实测风速数据,采样间隔为10分钟,对部分缺省数据做删除预处理后,共得到数据量34644个;
步骤2:对原始数据集进行数据预处理,采用滑窗的方法,设置窗口大小为25,将一维的风速序列展开成25维的风速滑窗时间序列,对每个滑窗内部的数据提取一组统计数字特征形成数字特征序列,统计数字特征包含数学期望、最大值、最小值、标准差、极差等5种数字特征,将数字特征序列与风速滑窗时间序列结合后形成时间-特征序列;对于输出数据,则取数据的第26个数据点开始往后的数据。
最后形成了三种序列,分别为:
风速滑窗时间序列:单独的滑窗数据序列,25维;
数字特征序列:单独的数字特征序列,5维;
时间-特征序列:将风速滑窗时间序列与数字特征序列结合起来,构成了30维的模型训练输入数据;
步骤3:采用XGboost算法对步骤2提取风速时间-特征序列进行训练建模,设置前34000组输入输出数据为训练集,后619组输入输出数据为验证集;设置XGboost算法模型参数:深度为5;学习率为0.007;objective='reg:gamma';该算法内容如下:
XGboost算法的基本思想是使用贪心法枚举出所有节点,计算各个节点分裂前后的信息增益,选出信息增益最大的,再进行切分,以此类推。
XGboost目标函数:
进行剪枝操作,防止过拟合。
第t次迭代时的目标函数:
正则项具体如式:
对树函数f作变换:
统一i,j的求和:
XGboost算法的打分函数:
该算法流程为:
Step1: 初始化,输入训练集样本I,迭代次数T,损失函数L,正则化系数γ,λ,初始迭代次数t=1;
Step6:判断特征序列k是否为特征总数K,若是,则到下一步;若否,执行k=k+1且返回Step3;
Step7:分裂子树,基于最大score对应的划分特征和特征值分裂子树
Step8:判断score是否为0,若是,则到下一步;若否,则返回Step3继续执行特征划分;
Step9:判断t是否为T+1,若是,则流程结束;若否,则执行t=t+1且返回Step2开始下一次迭代。
XGboost算法流程图如图2所示。
使用测试集检验预测模型的准确度,采用以下五种预测精度分析评价标准进行预测误差分析与评价,进而修正最终的风速预测模型,分别为:归一化均方根误差RMSE、均方误差平方和MSE、平均绝对误差MAE、误差最大值以及绝对中位差;其计算如下式所示:
步骤四:根据步骤三中验证后的风速预测模型对风速时间-特征序列进行预测,得到短期的风速预测数据;根据预测的短期风速为风电场运行提供决策支持。
具体对于风电场而言,风机端控制系统可以根据预测的短期风速提前进行变桨动作或进行风能捕获最大化调节;对于电网调度而言,通过预测短期风速估算风电场发电功率情况,进行人为或自动干预作出最优调度决策。
Claims (4)
1.一种基于特征工程的XGboost风速短期预测方法,其特征在于,包括以下步骤:
步骤一、采集风电机组端风速数据,构建基础的基于时间序列的风速原始数据集;
步骤二、对原始数据集进行数据预处理:采用滑窗的方法,将基于原始数据集的风速时间序列展开形成风速滑窗时间序列;将基于原始数据集的风速时间序列包含的统计数字特征提取出来形成数字特征序列,风速滑窗时间序列与数字特征序列结合成为风速时间-特征序列,作为预测模型的输入;
步骤三、采用极端梯度提升算法对步骤二提取风速时间-特征序列进行训练建模,得到风速预测模型;
步骤四、采用风速预测模型对风速时间-特征序列进行预测,得到风速预测数据。
3.根据权利要求1所述一种基于特征工程的XGboost风速短期预测方法,其特征在于,步骤二中,采用滑窗采样的方法,对每个滑窗内部的数据提取一组统计数字特征序列,将特征序列与滑窗时间序列结合形成时间-特征序列,作为预测模型的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338697.5A CN112613636A (zh) | 2020-11-25 | 2020-11-25 | 一种基于特征工程的XGboost风速短期预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338697.5A CN112613636A (zh) | 2020-11-25 | 2020-11-25 | 一种基于特征工程的XGboost风速短期预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613636A true CN112613636A (zh) | 2021-04-06 |
Family
ID=75225634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011338697.5A Pending CN112613636A (zh) | 2020-11-25 | 2020-11-25 | 一种基于特征工程的XGboost风速短期预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613636A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344252A (zh) * | 2021-05-18 | 2021-09-03 | 平衡机器科技(深圳)有限公司 | 一种基于虚拟气象技术的风功率预测方法 |
CN113392575A (zh) * | 2021-05-17 | 2021-09-14 | 桂林电子科技大学 | 基于滑窗特征的风机主轴故障预测方法 |
CN114239743A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种基于稀疏时间序列数据的事件发生时间预测方法 |
CN114252706A (zh) * | 2021-12-15 | 2022-03-29 | 华中科技大学 | 一种雷电预警方法和系统 |
CN116307273A (zh) * | 2023-05-17 | 2023-06-23 | 华中科技大学 | 一种基于XGBoost算法的船舶运动实时预报方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228978A (zh) * | 2017-12-15 | 2018-06-29 | 四川金网通电子科技有限公司 | 结合互补集合经验模态分解的Xgboost时间序列预测方法 |
CN111401941A (zh) * | 2020-03-06 | 2020-07-10 | 武汉大学 | 一种基于XGBoost推荐算法的车辆销量预测方法 |
CN111582551A (zh) * | 2020-04-15 | 2020-08-25 | 中南大学 | 风电场短期风速预测方法、系统及电子设备 |
-
2020
- 2020-11-25 CN CN202011338697.5A patent/CN112613636A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228978A (zh) * | 2017-12-15 | 2018-06-29 | 四川金网通电子科技有限公司 | 结合互补集合经验模态分解的Xgboost时间序列预测方法 |
CN111401941A (zh) * | 2020-03-06 | 2020-07-10 | 武汉大学 | 一种基于XGBoost推荐算法的车辆销量预测方法 |
CN111582551A (zh) * | 2020-04-15 | 2020-08-25 | 中南大学 | 风电场短期风速预测方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
沈豫: "基于XGBoost算法的短期负荷预测研究", 水利水电技术, vol. 50, pages 257 - 260 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392575A (zh) * | 2021-05-17 | 2021-09-14 | 桂林电子科技大学 | 基于滑窗特征的风机主轴故障预测方法 |
CN113392575B (zh) * | 2021-05-17 | 2023-06-20 | 桂林电子科技大学 | 基于滑窗特征的风机主轴故障预测方法 |
CN113344252A (zh) * | 2021-05-18 | 2021-09-03 | 平衡机器科技(深圳)有限公司 | 一种基于虚拟气象技术的风功率预测方法 |
CN114252706A (zh) * | 2021-12-15 | 2022-03-29 | 华中科技大学 | 一种雷电预警方法和系统 |
CN114252706B (zh) * | 2021-12-15 | 2023-03-14 | 华中科技大学 | 一种雷电预警方法和系统 |
CN114239743A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种基于稀疏时间序列数据的事件发生时间预测方法 |
CN114239743B (zh) * | 2021-12-22 | 2023-12-15 | 电子科技大学 | 一种基于稀疏时间序列数据的天气事件发生时间预测方法 |
CN116307273A (zh) * | 2023-05-17 | 2023-06-23 | 华中科技大学 | 一种基于XGBoost算法的船舶运动实时预报方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613636A (zh) | 一种基于特征工程的XGboost风速短期预测方法 | |
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN109802430B (zh) | 一种基于LSTM-Attention网络的风电电网控制方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN113468817B (zh) | 一种基于igoa优化elm的超短期风电功率预测方法 | |
CN113344288A (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN116796141A (zh) | 一种基于gbdt回归模型的办公建筑能耗预测方法 | |
CN113435595B (zh) | 基于自然进化策略的极限学习机网络参数两阶段优化方法 | |
CN109388863B (zh) | 一种基于arima模型的分布式光伏出力功率预测方法 | |
CN110766215A (zh) | 基于特征自适应选择和wdnn的风电爬坡事件预测方法 | |
CN110276478B (zh) | 基于分段蚁群算法优化svm的短期风电功率预测方法 | |
CN110555566B (zh) | 一种基于b样条分位数回归的光电概率密度预测方法 | |
CN116757321A (zh) | 太阳直接辐射量预测方法、系统、设备及存储介质 | |
CN116085245A (zh) | 一种基于os-elm的压缩机性能在线预测方法及系统 | |
CN113610665B (zh) | 一种基于多延迟输出回声状态网的风力发电功率预测方法 | |
CN115545279A (zh) | 一种风电场风电功率预测方法 | |
CN113095547B (zh) | 一种基于gra-lstm-ice模型的短期风功率预测方法 | |
CN114897260A (zh) | 基于lstm神经网络的短期风速预测模型建模方法及预测方法 | |
CN114881312A (zh) | 基于改进深度森林的短期风功率预测方法 | |
CN117633449B (zh) | 基于Spark-Cassandra框架的DE-DOA改进RRDBNet降水数据降尺度方法 | |
CN116449460B (zh) | 基于卷积UNet和迁移学习的区域月降水预测方法及系统 | |
CN117081064B (zh) | 一种基于误差评估的风电功率组合预测方法和系统 | |
CN112380041B (zh) | 一种基于xgboost的指控通信装备故障预测方法 | |
CN116305588B (zh) | 一种风洞试验数据异常检测方法、电子设备及存储介质 | |
CN116819485A (zh) | 一种基于pso-elm算法的林分郁闭度反演方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |