CN115764870A - 基于自动化机器学习的多变量光伏发电功率预测方法与装置 - Google Patents
基于自动化机器学习的多变量光伏发电功率预测方法与装置 Download PDFInfo
- Publication number
- CN115764870A CN115764870A CN202211421347.4A CN202211421347A CN115764870A CN 115764870 A CN115764870 A CN 115764870A CN 202211421347 A CN202211421347 A CN 202211421347A CN 115764870 A CN115764870 A CN 115764870A
- Authority
- CN
- China
- Prior art keywords
- model
- power generation
- data
- photovoltaic power
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于自动化机器学习的多变量光伏发电功率预测方法与装置,所述方法包括步骤为:步骤1、准备光伏发电数据;步骤2、对数据进行特征预处理和特征选择;步骤3、构造模型搜索空间,包括需要搜索的模型、以及模型基本结构;步骤4、模型优化,具体为对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置;步骤5、使用训练数据训练模型,并对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型;步骤6、通过最佳模型对多变量光伏发电功率进行预测。本发明可以对混合类型的数据进行数据填补,在属性具有缺失、属性值波动性较大的光伏数据集上能够取得较好预测效果。
Description
技术领域
本发明涉及自动化机器学习,具体是一种基于自动化机器学习的多变量光伏发电功率预测方法与装置。
背景技术
随着“双碳”发展目标实施,大力发展光伏发电等新能源技术具有与时俱进的重要战略意义。光伏发电是太阳能新能源的一种重要的应用技术,具有随机性和因昼夜引起的间歇性的特点,易受太阳辐射、温度、风速等天气因素影响。大规模的光伏发电并网可能导致电网电压剧烈波动,给电力系统的运行和调节带来很大的挑战。因此精准的光伏发电功率预测,能够使得电力系统调度中心可以更好地安排调度计划,并及时调整系统工作状态可以降低储能容量和运营成本,对电网系统的平稳运行具有重要意义。
目前很多人工智能算法在光伏发电功率预测工作中已经得到了较好的应用。但是人工智能算法在其他领域的应用往往需要领域专家与算法工程师合作进行,很大程度限制了人工智能算法的应用范围,具有一定的难度。
自动化机器学习是一种基于神经架构搜索的自动化机器学习工具,它能够使领域专家自动构建机器学习程序,而无需太多人工智能方面的专业知识。因为它可以帮助几乎没有机器学习知识的人构建高质量的自定义模型,从数据特征工程、到模型的搭建、超参数选择等过程都是自动化进行。如今已被广泛的应用于农业、工业等领域。AutoTS是一种应用于时间序列数据研究中的自动化机器学习框架。由于其提出的时间较短,目前还未发现在光伏发电功率预测工作中的应用研究。
发明内容
本发明的目的在于提供一种基于自动化机器学习的多变量光伏发电功率预测方法与装置,实现对混合类型的数据进行数据填补,以及对属性具有缺失、属性值波动性较大的光伏数据实现较好的预测。
本发明采取的技术方案如下:
第一方面,本发明提供一种基于自动化机器学习的多变量光伏发电功率预测方法,其包括以下步骤:
步骤1、准备光伏发电数据;
步骤2、对数据进行特征预处理和特征选择;
步骤3、构造模型搜索空间,包括需要搜索的模型、以及模型基本结构;
步骤4、模型优化,具体为对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置;
步骤5、使用训练数据训练模型,并对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型;
步骤6、通过最佳模型对多变量光伏发电功率进行预测。
进一步的,所述步骤1中,准备的光伏发电数据按照比例8:1:1分为三部分,80%作为训练集,10%作为验证集,10%作为测试集进行训练。
进一步的,所述步骤2中,特征预处理包括使用missforest算法对缺失数据进行填补,具体为:先将数据分为四部分,分别为变量的观测值,变量的缺失值,变量以外的观测值以及变量缺失值以外的其余观测值;然后对变量的缺失值进行预测,使用均值填充法,按照变量的缺失率从小到大排序,先对缺失率小的变量使用随机森林回归从而填补该变量的缺失值,随后一直迭代,直到最新的一次填补结果与上一次的填补结果不再变化或变化很小时停止。
进一步的,迭代指标是迭代时损失值变化的大小,公式如下所示:
其中,ΔN是迭代指标,j代表当前迭代的轮次,Xnew代表最新一次填补结果,Xold代表上一次填补结果。
进一步的,所述步骤2中,预处理之后再对包括时间、辐照度、温度、湿度、风向、风速、压强、实际辐照度以及发电功率在内的多维数据进行特征选择,将冗余无用的特征筛选掉。
进一步的,使用F分数进行评估,公式如下所示:
其中,i代表第i个特征,代表第i个特征的阳性样本的平均特征值,代表第i个特征的阴性样本的平均特征值,代表第i个特征的平均特征值,k是对于具体第i个特征的第k个实例,分母为阳性样本与阴性样本的特征值的方差之和;
根据F分数大小选择时间、辐照度、历史发电功率作为主要特征进行光伏发电功率的预测任务。
进一步的,基于Prophet、SARIMAX以及XGBoost三种模型对搜索空间进行构造,然后进行模型结构和参数的优化,公式如下所示:
f*=argminCost(F(θ*),Dval)
θ*=argminLoss(F(θ),Dtrain)
其中,f*为最优的神经网络模型,θ*为最优的学习参数,F为神经网络搜索空间,Dval和Dtrain分别是输入数据的训练以及验证部分,成本和代价函数为Cost(.,.),模型损失函数为Loss(.,.);
先将数据训练部分以及神经网络搜索空间进行优化,找到最低损失的学习参数,然后将数据验证部分和找到的最优学习参数的模型根据成本代价函数找到最优的神经网络模型。
进一步的,采用模拟退火算法作为优化算法自动选择模型结构和超参数,具体为:先计算初始解并生成计算目标函数,随后扰动生成新解并计算新的目标函数,将两次得到的目标函数值相减得到参数的变化量,若变化量为正,则按照Metrapolis准则接受新解;若为负,则直接接受新解;接着判断是否达到迭代次数,若未达到,返回上一步;若达到,则判断是否满足终止条件,若未满足,缓慢降低参数值并重置迭代次数;若满足,结束算法,从而得到最优参数。
进一步的,采用均方根误差RMSE作为评估指标,公式如下所示:
第二方面,本发明还提供一种基于自动化机器学习的多变量光伏发电功率预测装置(系统),其包括:
获取模块,用于获取待预测区域的光伏发电数据;
预测处理模块,用于将待预测区域的光伏数据输入到预先训练好的最佳预测模型中,并输出该区域的光伏发电功率。
第三方面,本发明还提供一种基于自动化机器学习的多变量光伏发电功率预测模型构建装置,其包括:
数据处理单元,用于对光伏发电数据进行特征预处理和特征选择;
模型构造单元,用于构造模型搜索空间,包括需要搜索的模型、以及模型基本结构;
模型优化单元,用于对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置;
模型训练单元,用于使用训练数据训练模型,
模型评估单元,用于对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型。
本发明的有益效果是:本发明采用missforest算法对缺失数据进行填补,使用模拟退火算法自动搜索各种模型空间选择最优的模型和超参数,无需人工搭建模型以及参数调节。本发明可以对混合类型的数据进行数据填补,在具有缺失、波动性较大的数据集上能够取得较好预测效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为自动化机器学习处理流程图;
图2为missforest算法数据填补流程图;
图3为模型生成流程图;
图4为模拟退火算法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
自动化机器学习由三个主要过程组成,包括数据准备、特征工程、模型生成和模型评估。模型生成包括模型选择和超参数优化,需要定义模型的搜索空间及其优化方法。模型搜索空间包括了传统机器学习模型和神经网络架构。而优化方法主要分为超参数优化和模型结构优化。优化算法有强化学习、基于进化的算法和梯度下降算法等。
本发明实施例提供一种基于自动化机器学习的多变量光伏发电功率预测方法,该方法的自动化机器学习处理流程如图1所示,将光伏功率发电数据输入之后,首先对数据进行特征预处理,包括特征标准化,填充部分缺失数据等。然后使用主成分分析等方式进行特征选择。数据处理完成后,构造一个搜索空间,包括了需要搜索的模型,以及模型基本结构,然后选择一种优化算法对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置。然后使用训练数据训练模型,按照选择的评估指标对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型和参数。
具体实现步骤如下:
先将准备好的光伏发电数据按照比例8:1:1分为三部分,80%作为训练集,10%作为验证集,10%作为测试集进行训练。
在数据预处理阶段,需要先对已选择的电站数据作数据可视化处理。先分别将辐射度,温度,发电功率,风速等数据随时间的变化用图的方式表现出来,发现有明显的数据丢失情况。
本发明使用missforest算法对缺失数据进行填补,算法流程图如图2所示,先将数据分为四部分,分别为变量的观测值,变量的缺失值,变量以外的观测值以及变量缺失值以外的其余观测值。然后对变量的缺失值进行预测,使用均值填充法,按照变量的缺失率从小到大排序,先对缺失率小的变量使用随机森林回归从而填补该变量的缺失值,随后一直迭代,直到最新的一次填补结果与上一次的填补结果不再变化或变化很小时停止。
迭代指标是迭代时损失值变化的大小,公式如(1)所示:
其中,ΔN是迭代指标,j代表当前迭代的轮次,Xnew代表最新一次填补结果,Xold代表上一次填补结果。
然后对诸如时间、辐照度、温度、湿度、风向、风速、压强、实际辐照度以及发电功率等多维数据进行特征选择,将冗余无用的特征筛选掉,本发明使用F分数进行评估,公式如(2)所示:
其中,i代表第i个特征,代表第i个特征的阳性样本的平均特征值,代表第i个特征的阴性样本的平均特征值。代表第i个特征的平均特征值。k是对于具体第i个特征的第k个实例,分母为阳性样本与阴性样本的特征值的方差之和。
根据F分数大小选择时间、辐照度、历史发电功率作为主要特征进行光伏发电功率的预测任务。随后进行搜索空间的构造。
本发明采用均方根误差RMSE作为评估指标,公式如(3)所示:
模型生成流程图如图3所示,基于Prophet、SARIMAX以及XGBoost三种模型对搜索空间进行构造,然后进行模型结构和参数的优化,公式如(4)和(5)所示:
f*=arg min Cost(F(θ*),Dval) (4)
θ*=arg min Loss(F(θ),Dtrain) (5)
其中,f*为最优的神经网络模型,θ*为最优的学习参数。F为神经网络搜索空间,Dval和Dtrain分别是输入数据的训练以及验证部分,成本和代价函数为Cost(.,.),模型损失函数为Loss(.,.)。
先将数据训练部分以及神经网络搜索空间进行优化,找到最低损失的学习参数,然后将数据验证部分和找到的最优学习参数的模型根据成本代价函数找到最优的神经网络模型。
本发明采用模拟退火算法作为优化算法自动选择模型结构和超参数,流程图如图4所示,模拟退火算法通过模拟退火过程从而获得最优的参数。先计算初始解并生成计算目标函数,随后扰动生成新解并计算新的目标函数,将两次得到的目标函数值相减得到参数的变化量,若变化量为正,则按照Metrapolis准则接受新解;若为负,则直接接受新解。接着判断是否达到迭代次数,若未达到,返回上一步;若达到,则判断是否满足终止条件,若未满足,缓慢降低参数值并重置迭代次数;若满足,结束算法,从而得到最优参数。
使用训练数据训练模型,最后对模型进行评估,根据三种模型RMSE的比较,发现XGBoost的表现最佳,从而得到了最优模型。实现了使用自动化机器学习对多维度光伏发电功率的预测。
基于上述方法,本发明实施例还提供一种基于自动化机器学习的多变量光伏发电功率预测装置(系统),其包括:
获取模块,用于获取待预测区域的光伏数据集;
预测处理模块,用于将待预测区域的光伏数据集输入到预先训练好的最佳预测模型中,并输出该区域的光伏发电功率。
基于上述方法,本发明实施例还提供一种基于自动化机器学习的多变量光伏发电功率预测模型构建装置,其包括:
数据处理单元,用于对光伏发电数据进行特征预处理和特征选择;
模型构造单元,用于构造模型搜索空间,包括需要搜索的模型、以及模型基本结构;
模型优化单元,用于对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置;
模型训练单元,用于使用训练数据训练模型,
模型评估单元,用于对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型。
综上,本发明有利于非专业人士简单快捷的上手机器学习模型,使用起来高效且成本较低,使用了missforest算法可以处理混合类型的缺失数据,也可以对连续变量或类别变量的数据进行插补。使用模拟退火算法可以自动优化参数和模型结构,对于一些有缺失且波动性较大的数据集,本发明展现了较好的预测效果。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (10)
1.一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于包括以下步骤:
步骤1、准备光伏发电数据;
步骤2、对数据进行特征预处理和特征选择;
步骤3、构造模型搜索空间,包括需要搜索的模型、以及模型基本结构;
步骤4、模型优化,具体为对模型空间和超参数进行搜索,每次搜索的结果为一个完整的模型结构及其超参数配置;
步骤5、使用训练数据训练模型,并对模型进行评估,根据评估结果选择最优的模型与超参数,最后输出训练完成的最佳模型;
步骤6、通过最佳模型对多变量光伏发电功率进行预测。
2.根据权利要求1所述的一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于,所述步骤1中,准备的光伏发电数据按照比例8:1:1分为三部分,80%作为训练集,10%作为验证集,10%作为测试集进行训练。
3.根据权利要求1所述的一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于,所述步骤2中,特征预处理包括使用missforest算法对缺失数据进行填补,具体为:先将数据分为四部分,分别为变量的观测值,变量的缺失值,变量以外的观测值以及变量缺失值以外的其余观测值;然后对变量的缺失值进行预测,使用均值填充法,按照变量的缺失率从小到大排序,先对缺失率小的变量使用随机森林回归从而填补该变量的缺失值,随后一直迭代,直到最新的一次填补结果与上一次的填补结果不再变化或变化很小时停止。
5.根据权利要求1所述的一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于,所述步骤2中,预处理之后再对包括时间、辐照度、温度、湿度、风向、风速、压强、实际辐照度以及发电功率在内的多维数据进行特征选择,将冗余无用的特征筛选掉。
7.根据权利要求1所述的一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于,基于Prophet、SARIMAX以及XGBoost三种模型对搜索空间进行构造,然后进行模型结构和参数的优化,公式如下所示:
f*=argminCost(F(θ*),Dval)
θ*=argminLoss(F(θ),Dtrain)
其中,f*为最优的神经网络模型,θ*为最优的学习参数,F为神经网络搜索空间,Dval和Dtrain分别是输入数据的训练以及验证部分,成本和代价函数为Cost(.,.),模型损失函数为Loss(.,.);
先将数据训练部分以及神经网络搜索空间进行优化,找到最低损失的学习参数,然后将数据验证部分和找到的最优学习参数的模型根据成本代价函数找到最优的神经网络模型。
8.根据权利要求1所述的一种基于自动化机器学习的多变量光伏发电功率预测方法,其特征在于,采用模拟退火算法作为优化算法自动选择模型结构和超参数,具体为:先计算初始解并生成计算目标函数,随后扰动生成新解并计算新的目标函数,将两次得到的目标函数值相减得到参数的变化量,若变化量为正,则按照Metrapolis准则接受新解;若为负,则直接接受新解;接着判断是否达到迭代次数,若未达到,返回上一步;若达到,则判断是否满足终止条件,若未满足,缓慢降低参数值并重置迭代次数;若满足,结束算法,从而得到最优参数。
10.一种基于自动化机器学习的多变量光伏发电功率预测装置,其特征在于,包括:
获取模块,用于获取待预测区域的光伏数据集;
预测处理模块,用于将待预测区域的光伏数据集输入到预先训练好的最佳预测模型中,并输出该区域的光伏发电功率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421347.4A CN115764870A (zh) | 2022-11-14 | 2022-11-14 | 基于自动化机器学习的多变量光伏发电功率预测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421347.4A CN115764870A (zh) | 2022-11-14 | 2022-11-14 | 基于自动化机器学习的多变量光伏发电功率预测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115764870A true CN115764870A (zh) | 2023-03-07 |
Family
ID=85370322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211421347.4A Pending CN115764870A (zh) | 2022-11-14 | 2022-11-14 | 基于自动化机器学习的多变量光伏发电功率预测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115764870A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113267A (zh) * | 2023-10-25 | 2023-11-24 | 杭州海兴泽科信息技术有限公司 | 基于大数据的预测模型训练方法、光伏发电性能检测方法 |
CN117829380A (zh) * | 2024-03-05 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 一种电力使用长期预测方法、系统、设备及介质 |
-
2022
- 2022-11-14 CN CN202211421347.4A patent/CN115764870A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113267A (zh) * | 2023-10-25 | 2023-11-24 | 杭州海兴泽科信息技术有限公司 | 基于大数据的预测模型训练方法、光伏发电性能检测方法 |
CN117113267B (zh) * | 2023-10-25 | 2024-02-09 | 杭州海兴泽科信息技术有限公司 | 基于大数据的预测模型训练方法、光伏发电性能检测方法 |
CN117829380A (zh) * | 2024-03-05 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 一种电力使用长期预测方法、系统、设备及介质 |
CN117829380B (zh) * | 2024-03-05 | 2024-05-28 | 国网山东省电力公司信息通信公司 | 一种电力使用长期预测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115764870A (zh) | 基于自动化机器学习的多变量光伏发电功率预测方法与装置 | |
CN103577694B (zh) | 一种基于多尺度分析的水产养殖水质短期组合预测方法 | |
CN105868853B (zh) | 一种短期风电功率组合概率预测方法 | |
CN105574615A (zh) | 一种基于空间相关性与ga的小波-bp神经网络风电功率预测方法 | |
CN113988477A (zh) | 基于机器学习的光伏功率短期预测方法、装置及存储介质 | |
CN114119273A (zh) | 一种园区综合能源系统非侵入式负荷分解方法及系统 | |
CN109242200B (zh) | 一种贝叶斯网络预测模型的风电功率区间预测方法 | |
CN117031950A (zh) | 深度调峰火电机组控制系统建模的方法及装置 | |
CN108717579A (zh) | 一种短期风电功率区间预测方法 | |
CN110163444A (zh) | 一种基于gasa-svr的需水预测方法 | |
CN116070769A (zh) | 一种超短期风电场功率多步区间预测模块化方法及其设备 | |
CN112686693A (zh) | 电力现货市场边际电价预测方法、系统、设备及存储介质 | |
CN116629416A (zh) | 光伏电站功率预测方法及装置 | |
CN116245019A (zh) | 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质 | |
CN115345297A (zh) | 一种基于生成对抗网络的台区样本生成方法及系统 | |
CN115640874A (zh) | 基于改进型灰色模型理论的变压器状态预测方法 | |
CN112836876B (zh) | 一种基于深度学习的配电网线路负荷预测方法 | |
CN108537581B (zh) | 基于gmdh选择性组合的能源消费量时间序列预测方法及装置 | |
CN113205228A (zh) | 一种短期风力发电输出功率的预测方法 | |
CN111582567B (zh) | 一种基于递阶集成的风电功率概率预测方法 | |
CN113240217A (zh) | 一种基于集成预测模型的光伏发电预测方法及装置 | |
CN116722541A (zh) | 一种基于卷积神经网络的电力系统负荷预测方法及装置 | |
CN116845875A (zh) | 一种基于woa-bp的短期光伏出力预测方法及装置 | |
CN113642784B (zh) | 一种计及风机状态的风电功率超短期预测的方法 | |
CN112581311B (zh) | 一种多风电场聚合后出力长期波动特性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |