发明内容
基于此,有必要针对上述技术问题,提供一种能够得到准确影响新能源发电功率的面向新能源高精度预测的机器学习特征选择方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种面向新能源高精度预测的机器学习特征选择方法。该方法包括:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在其中一个实施例中,采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合包括:获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在其中一个实施例中,根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分包括:对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在其中一个实施例中,根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分包括:根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在其中一个实施例中,基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合包括:计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在其中一个实施例中,采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合包括:采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
第二方面,本申请还提供了一种面向新能源高精度预测的机器学习特征选择装置。该装置包括:
获取模块,用于获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
第一提取模块,用于采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
第二提取模块,用于基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
第三提取模块,用于采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在其中一个实施例中,第一提取模块还用于获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在其中一个实施例中,第一提取模块还用于对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在其中一个实施例中,第一提取模块还用于根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在其中一个实施例中,第二提取模块还用于计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在其中一个实施例中,第三提取模块还用于采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
上述面向新能源高精度预测的机器学习特征选择方法、装置、计算机设备、存储介质和计算机程序产品,获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。整个方案获取全面的气象特征集合,进而根据随机森林算法对气象特征进行初步提取,进而在初次提取的特征的基础上,对气象特征进行相关性分析,根据相关性分析结果再次进行提取,进而对剩余的特征进行递归消除,通过多次筛选,将对新能源发电功率影响最大的特征筛选处理,进而得到更加准确的气象特征。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前关于新能源发电功率预测方法,大多至考虑到算法模型的选择对预测准确性的影响,未能充分挖掘气象特征之间的相关性规律。由于新能源出力的气象特征因素繁多,对于不同气候条件下的新能源发电系统(即新能源场站),影响出力的气象特征不同,缺少一套流程化、可移植、适用范围广的特征选取方法。因此,充分运用气象特征的潜在规律,选择最佳的训练特征,对于提高新能源功率预测精度有重要作用。
本申请首先基于随机森林算法对影响功率,筛选出对新能源功率变化影响最大的气象特征因素组合,在此基础上,运用统计学的相关性分析,研究气象特征与发电功率之间的相关性,对气象特征做进一步筛选,最后,使用递归特征消除法,确定最终筛选出来用于预测的特征集合。在功率预测时运用本方法进行气象特征选取,能够提升新能源功率预测精度。
本申请实施例提供的面向新能源高精度预测的机器学习特征选择方法,可以应用于如图1所示的应用环境中。其中,用户102通过网络与终端104通信,终端104通过网络与新能源发电系统106进行通信。数据存储系统可以存储新能源发电系统106中的发电样本数据。数据存储系统可以集成在新能源发电系统106上,也可以放在云上或其他网络服务器上。用户102向终端104发起气象特征分析请求,终端104接收气象特征分析请求,根据气象特征分析请求从新能源发电系统106中获取初始气象特征集合,采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。其中,终端104可以但不限于是各种物理服务器、虚拟主机、个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。新能源发电系统106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种面向新能源高精度预测的机器学习特征选择方法,本实施例以该方法应用于终端进行举例说明,包括以下步骤:
步骤202,获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合。
其中,新能源发电系统包括不同发电种类的新能源发电系统,如光伏发电场站、风电场站等。初始气象特征指的是所有影响新能源发电功率的所有气象特征,初始气象特征中所有气象特征组成的集合为初始气象特征集合。初始气象特征集合包括风速(WS)、风向(WD)、温度(TEM)、空气密度(Density)、气压(PRS)、总辐射(SR)、直接辐射(SWDDIF)、散射辐射(SWDDIR)、高云量(TCC)、总云量(HCC)等。
具体地,终端获取用户的气象特征分析请求,对气象特征分析请求进行解析,确定气象特征类型,如风电场站、光伏场站等,获取气象特征类型对应的新能源发电系统中影响发电功率的初始气象特征,将初始气象特征组成的集合作为初始气象特征集合。初始气象特征可以是终端根据所有气象特征,对所有气象特征以及新能源发电功率之间进行相关性分析,提取得到初始气象特征。初始气象特征还可以是新能源专家根据科学研究总结的影响新能源发电功率的气象特征。
步骤204,采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合。
其中,第一气象特征集合指的是经过随机森林算法对气象特征筛选后,得到的对发电功率影响较大的气象特征集合。
具体地,终端采用随机森林算法,通过随机森林算法构建包括多个决策树的数据分类器,通过数据分类器以及历史气象数据与历史发电功率之间的关系来提取对发电功率影响较大的气象特征,得到第一气象特征集合。
步骤206,基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
具体地,终端对从历史气象数据中提取第一气象特征集合所包含的气象特征的历史数据,将第一气象特征的历史数据与历史发电功率之间进行相关性分析,将相关性分析结果中低于预设相关性阈值的气象特征剔除,将剔除后第一气象特征集合中剩余的气象特征进行组合,得到第二气象特征集合。
步骤208,采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合。
其中,终端在几次筛选过程中,每次筛选都是筛选出对发电功率影响较大的气象特征,因此初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
具体地,终端得到第二气象特征集合之后,递归地构建决策树模型,根据第二气象特征集合中气象特征的相关系数选出与发电功率相关性最强的特征,根据第二气象特征集合剩余气象特征再次构建决策树模型,根据第二气象特征集合中剩余气象特征的相关系数选出与发电功率相关性最强的特征,直到筛选出预设特征数据的气象特征位置,停止筛选,将筛选得到的气象特征作为目标气象特征集合。
上述面向新能源高精度预测的机器学习特征选择方法中,获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。整个方案获取全面的气象特征集合,进而根据随机森林算法对气象特征进行初步提取,进而在初次提取的特征的基础上,对气象特征进行相关性分析,根据相关性分析结果再次进行提取,进而对剩余的特征进行递归消除,通过多次筛选,将对新能源发电功率影响最大的特征筛选处理,进而得到更加准确的气象特征。
在一个可选的实施例中,如图3所示,采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合包括:
步骤302,获取新能源发电系统的发电样本数据。
其中,发电样本数据包括气象样本数据以及发电功率样本数据。通过收集一段时间段内待研究新能源的历史气象数据以及历史发电功率数据得到发电样本数据。
具体地,终端获取用户的气象特征分析请求,对气象特征分析请求进行解析,得到气象特征类型以及样本存放路径,根据样本存放路径以及气象特征类型获取预设天数的发电样本数据以及新能源发电系统中影响发电功率的初始气象特征。
步骤304,根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分。
具体地,终端根据发电样本数据中部分样本数据,采用随机森林算法,构建多个决策树,再根据其他剩余的样本数据计算构建的决策树的预测准确率,根据决策树的预测准确率进行计算,得到多个气象特征的特征评分。
步骤306,根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
具体地,终端依次对初始气象特征集合中每个气象特征的特性评分与预设评分阈值进行比较,将特性评分低于预设评分阈值的气象特征从初始气象特征集合中剔除,剔除过后初始特征集合中剩余的气象特征就是在决策树中预测发电功率比较重要的特征,构成第一气象特征集合。
在一个可选的实施例中,根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分包括:对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
具体地,终端将发电样本数据进行重复随机抽样,当抽样得到的数据总量达到预设训练样本数据,则停止抽样,得到训练样本数据;将发电样本数据中未被抽样的数据,作为测试样本数据。根据训练样本数据中的气象样本数据以及发电功率样本数据,构建多个决策树。根据测试样本数据中的气象样本数据以及发电功率样本数据,验证多个决策树的预测准确率,根据决策树的预测准确率,计算该决策树中气象特征的重要程度,得到每个气象特征的特征评分。
在一个可选的实施例中,根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分包括:根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
具体地,终端根据测试样本数据中的气象样本数据以及发电功率样本数据,验证多个决策树的预测错误率;终端随机从测试样本数据中对所有样本的特征X加入噪声干扰,即随机改变样本在特征X处的值,计算决策树的噪声预测错误率(即袋外数据误差);根据噪声预测错误率减去预测错误率,根据多个决策树的累加相减结果除以决策树的数量,得到特征X的重要程度。随机改变初始气象特征集合中每个特征的值,根据每个特征的决策树的预测错误率以及噪声预测错误率,确定特征的重要程度,得到该气象特征对应的特征评分。将特性评分低于预设评分阈值的气象特征从初始气象特征集合中剔除,剔除过后初始特征集合中剩余的气象特征就是在决策树中预测发电功率比较重要的特征,构成第一气象特征集合。
进一步地,特征评分基于袋外数据误差,随机改变某个气象特征的值,如果袋外数据误差大幅度上升,则说明该气象特征对于样本的分类结果影响很大,重要程度高。特征评分的计算方式如下:
第一步,通过对发电样本数据的重复抽样,得到训练样本数据,根据训练样本数据构建决策树,没有被抽样的数据则用于对随机森林的性能进行评估,用于计算模型的预测错误率,即袋外数据误差;
第二步,对于随机森林中的每一颗决策树,计算模型的预测错误率,记为errOOB1;
第三步,随机地对袋外数据所有样本的特征X加入噪声干扰(随机改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2。
第四步,假设随机森林中有N颗树,那么对于特征X的重要性=∑(err00B2-errOOB1)/N。
舍弃低于预设评分阈值的特征。预设评分阈值作为本特征选取方法的可变参数,可手动调整,本实施例中设定的随机森林得分临界值默认值为0.05。
在一个可选的实施例中,基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合包括:计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
具体地,终端得到第一气象特征集合之后,计算第一气象特征集合中每一个气象特征与发电功率之间的皮尔逊相关系数,得到特征相关系数;从第一气象特征集合中剔除特征相关系数中低于预设相关性阈值的气象特征,将剩余的特征组合,得到第二气象特征集合。
进一步地,基于相关性分析,通过统计学上的相关系数r,研究不同气象特征与功率之间线性关系的程度。将所有特征与功率的相关性系数绝对值进行比对,舍弃相关性系数绝对值低于临界值(门槛值)的特征。临界值作为本特征选取方法的可变参数,可手动调整,一般来说,相关性系数绝对值0-0.09认为没有相关性,0.3-弱,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。本方法中设定光伏的相关性系数临界值默认值为0.2,风电的相关性系数临界值默认值为0.45。相关系数r的计算公式如下:
如图4所示,为通过相关性分析筛选气象特征前,各气象特征与功率的相关性系数。气象特征之间的相关性,在筛选前,各气象特征之间存在相互的较严重的线性相关性,容易影响预测模型性能。
如图5所示,为通过相关性分析筛选气象特征后,各气象特征与功率的相关性系数,相关性较高。气象特征之间的相关性,在筛选后,各气象特征之间相关性降低,基本不存在线性相关性。
在一个可选的实施例中,采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合包括:采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
具体地,终端得到第二气象特征集合之后,递归地构建决策树模型,并通过交叉验证,根据相关性系数选出最好的特征,然后在剩余的特征上重复这个过程,直到遍历了所有的特征。在递归的过程中对特征进行排序,并最多保留排名靠前的k个特征,作为特征集合保存k值作为本特征选取方法的入参,可手动调整,本方法中设定特征数量默认为4个,还可以根据不同的新能源发电类型进行调整。如图6所示,采用递归消除法,确定训练特征个数为4时,模型预测精度最高。最后,终端将目标气象特征集合以列表形式作为特征工程的输出,亦可输出并保存为csv格式的配置文件,便于未来进行训练或研究。
如图7所示,采用本申请提供的气象特征方法进行筛选后,新能源发电功率预测精度得到明显提升。
本申请首先基于随机森林算法对影响功率,筛选出对新能源功率变化影响最大的气象特征因素组合,在此基础上,运用统计学的相关性分析,研究气象特征之间的相关性,对气象特征做进一步筛选,最后,使用交叉验证法和递归特征消除法,在功率预测时运用本方法进行气象特征选取,能够提升新能源功率预测精度。本申请挑选了云南、贵州等地的7个新能源发电系统,进行气象特征选取,经过特征工程,相比未经特征工程的新能源功率预测准确率均有一定提升,其中短期预测(预测未来72小时)准确率提升最小值0.22%,最大值7.09%,平均提升2.08%;超短期预测(预测未来4小时)准确率提升最小值0.14%,最大值11.16%,平均提升2.72%。
为了易于理解本申请实施例提供的技术方案,如图8所示,以完整的面向新能源高精度预测的机器学习特征选择过程对本申请实施例提供的面向新能源高精度预测的机器学习特征选择方法进行简要说明:
(1)传入数据集所在路径、加载的数据天数、气象特征类型(风电/光伏)、随机森林和相关性系数临界值。基于随机森林算法,筛选出对新能源功率变化影响最大的气象特征因素组合。
(2)运用统计学的相关性分析,研究气象特征之间的相关性,气象特征与发电功率之间的相关性,根据气象特征与发电功率之间的相关性对气象特征做进一步筛选。
(3)使用交叉验证法和递归特征消除法,递归地构建决策树模型,根据相关性系数选出最好的特征,然后在剩余的特征上重复这个过程,直到遍历了所有的特征,得到目标气象特征集合。
(4)导出特征工程筛选得到的特征集合,亦可输出为csv格式的配置文件。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的面向新能源高精度预测的机器学习特征选择方法的面向新能源高精度预测的机器学习特征选择装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个面向新能源高精度预测的机器学习特征选择装置实施例中的具体限定可以参见上文中对于面向新能源高精度预测的机器学习特征选择方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种面向新能源高精度预测的机器学习特征选择装置,包括:获取模块902、第一提取模块904、第二提取模块906和第三提取模块908,其中:
获取模块902,用于获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合。
第一提取模块904,用于采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合。
第二提取模块906,用于基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
第三提取模块908,用于采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合。
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在一个实施例中,第一提取模块904还用于获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在一个实施例中,第一提取模块904还用于对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,第一提取模块904还用于根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,第二提取模块906还用于计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在一个实施例中,第三提取模块908还用于采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
上述面向新能源高精度预测的机器学习特征选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种新能源发电系统中影响发电功率的气象特征提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合包括:获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分包括:对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分包括:根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合包括:计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合包括:采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合包括:获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分包括:对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分包括:根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合包括:计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合包括:采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取新能源发电系统中影响发电功率的初始气象特征,得到初始气象特征集合;
采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合;
基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合;
采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合;
初始气象特征集合、第一气象特征集合、第二气象特征集合以及目标气象特征集合中的平均每个气象特征对发电功率的影响程度逐级增大。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采取随机森林算法,筛选初始气象特征集合中的气象特征,得到第一气象特征集合包括:获取新能源发电系统的发电样本数据;根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分;根据特征评分,从初始气象特征集合中剔除特征评分低于预设评分阈值的特征,得到第一气象特征集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据发电样本数据,采用随机森林算法,对初始气象特征集合中的气象特征进行评分,得到特征评分包括:对发电样本数据进行随机抽样,得到训练样本数据;根据未被抽样的发电样本数据,得到测试样本数据;根据训练样本数据,构建决策树;根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据决策树以及测试样本数据,计算初始气象特征集合中气象特征的重要程度,得到特征评分包括:根据测试样本数据,计算决策树的预测错误率;随机对测试样本数据的单个气象特征加入噪声,计算决策树的噪声预测错误率;根据预测错误率以及噪声预测错误率,确定气象特征集合中气象特征的重要程度,得到特征评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于气象特征与发电功率之间的相关性分析,对第一气象特征集合进行气象特征筛选,得到第二气象特征集合包括:计算第一气象特征集合中各气象特征与发电功率之间的相关性;根据各气象特征与发电功率之间的相关性对第一气象特征集合进行气象特征筛选,得到第二气象特征集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采取递归特征消除法,筛选第二气象特征集合中的气象特征,得到目标气象特征集合包括:采用递归特征消除法,对第二气象特征进行气象特征提取;对提取的气象特征进行交叉验证,得到目标气象特征集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。