CN115758876A - 一种风速和风向预报准确率方法、系统及计算机设备 - Google Patents
一种风速和风向预报准确率方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN115758876A CN115758876A CN202211424528.2A CN202211424528A CN115758876A CN 115758876 A CN115758876 A CN 115758876A CN 202211424528 A CN202211424528 A CN 202211424528A CN 115758876 A CN115758876 A CN 115758876A
- Authority
- CN
- China
- Prior art keywords
- data set
- wind speed
- forecast
- air pressure
- wind
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
Abstract
本申请涉及一种风速和风向预报准确率方法、系统及设备,包括获取风向与气压及风速与气压的历史数据,根据历史数据来源不同,分为第一观测数据集与第一预报数据集;获取的第一预报数据集根据奇异值分解法获得相关特征值;获得的相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,获得第二预报数据集;第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对相关特征值进行特征筛选,得到强分类器;基于强分类器,形成第三预报数据集,根据梯度提升模型计算得到预报风速值;基于均方根误差比对,得到梯度提升模型的订正效果,从而提高风向和风速的预报准确率,进而提高风功率预测准确率,实现对风资源的有效利用。
Description
技术领域
本申请涉及能源气象领域,特别是涉及一种风速和风向预报准确率方法、系统及计算机设备。
背景技术
清洁能源的重要性日益凸显,风能等可再生能源的地位日益提高。但是风的波动性太强,风电要安全入网,需要准确的风功率预测。我国风能资源丰富的地区主要分布在三北地区、青藏高原、东南沿海及附近岛屿、内陆个别地区(湖泊及特殊地形的影响)和近海地区。由于地理位置和地形条件的不同,以上五大类风资源分布区内的天气和气候特征各有不同。随着全国范围内风电场逐年增多,复杂地形条件下的风电场其风向和风速变化比较大,给风能的利用带来了较高的难度。
并且对于风能的利用,需要及时获取对应地点的场站的风速实况信息,通过风速时况信息提高风的预测准确率,进而提高风功率预测准确率。但是目前为了保证数据安全,现阶段风电场站的数据不能实时传出场站,只能在通过内部审批流程后,得到历史数据,这导致不能及时获取场站风速实况信息,在一定程度上阻碍了预报技术的提高,进而影响风功率的预测准确率,降低风能的利用率。
发明内容
基于此,本申请提供了一种风速和风向预报准确率方法、系统及计算机设备,以达到基于机器学习的方法技术有效的提高风向和风速的预报准确率,进而提高风功率预测准确率,实现对风资源的有效利用。
第一方面,本申请提供了一种改进风速和风向预报准确率方法,该方法包括:获取风向与气压以及风速与气压的历史数据,根据所述历史数据来源不同,分为第一观测数据集与第一预报数据集,其中所述第一预报数据集用于训练和测试模型,所述第一观测数据集用于检验模型预报的准确率;基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值;基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集;基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的所述相关特征值组成强分类器;基于所述强分类器,提取所述强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值;基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果。
可选的是,所述基于获取的所述第一预报数据集合根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值之前,包括:将获取的所述第一观测数据集与第一预报数据集进行数据预处理,得到空间分辨率和时间分辨率相同的所述第一观测数据集和所述第一预报数据集。
可选的是,所述基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值,包括:基于所述第一预报数据集中的风向或风速与经过数据预处理的每一层气压作为输入值,获得奇异向量场;其中包括风速或风向与海平面气压的同类相关分布的左奇异向量和右奇异向量、异类相关分布的左奇异向量和右奇异向量以及对应的时间系数、累积协方差贡献以及计算的多个模态的相关系数;重复上述步骤,直到获得风速或风向与其他各层气压的奇异值分解结果。可选的是,所述基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集包括:基于所述异类相关分布的所述左奇异向量对应的时间系数,挑选极大值并用每一个极大值乘以所述左奇异向量,求和后获得用于随林森林分类的一个特征;挑选极小值并用每一个极小值乘以所述左奇异向量,求和后获得用于随林森林分类的一个特征;重复上述步骤,直到获得多个模态的特征将以上多个极大值、多个极小值的合成分析分别求和,获得用于随机森林的分类特征;针对异类相关分布的所述右奇异向量及对应的时间系数,重复上述步骤,获得用于随机森林分类的特征;重复上述步骤,直到获得风速或风向与其他对应层气压的合成分析结果及用于随机森林分类的特征,并将合成分析结果放入所述第一预报数据集,获得更新后的所述第二预报数据集。
可选的是,所述基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成强分类器包括:对所述第二预报数据集按比例分别抽取样本,将抽取的样本以及对应的所述第二观测数据集组合获得第二训练集,剩下所述第二预报数据集未被抽取的数据以及对应的所述第二观测数据集组合形成第二测试集,用于评估训练集的准确率;基于所述相关特征值对所述训练集划分抽取,组成特征值集合,基于抽取的所述特征值集合,训练得到多棵决策树;对多棵决策树的所述相关特征值重要性投票,投票提取前特定数量的重要所述相关特征值,组合获得最终的强分类器。
可选的是,所述基于所述最强分类器,提取所述最强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集以及对应的同一时间地点的第三观测数据集,根据梯度提升模型计算得到预报风速值,包括:对所述第三预报数据集按比例分别抽取样本,将抽取的样本以及对应的所述第三观测数据集组合获得第三训练集,剩下所述第三预报数据集未被抽取的数据以及对应的所述第三观测数据集组合形成第三测试集,用于评估训练集的准确率;基于所述第三预报数据集以及对应的第三观测数据集,定义一个损失函数,要使每次训练的损失函数最小,通过公式(1)进行描述,
式中,yi是第i个格点的所述第三训练集中的所述第三观测数据,是第i个格点的所述第三训练集中的所述第三预报数据;基于所述第三训练集根据所述损失函数的负梯度信息训练新加入的回归决策树,并获得预报正确的数据和剩余数据;调整数据分布,给所述预报正确的数据小权重,给所述剩余数据中预报错误的数据大权重,在此基础上得到更新后的训练集,使用当前的回归决策树拟合更新后的训练集,得到新的回归决策树、预报正确的数据和剩余数据;重复上述步骤,直到所述预报数据的错误率小于 5%时停止分类;取前预设数量个预报正确率最高的的决策树,得到强学习器;基于所述第三测试集根据所述强学习器,计算梯度提升模型预报的风速值。
可选的是,所述基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果,具体包括:基于第一预报数据集与第一观测数据集计算风向和风速的均方根误差,得到订正前风速预报值的均方根误差;基于所述第三训练集根据梯度提升模型计算订正后的风向和风速与所述第一观测值的均方根误差,得到根据梯度提升模型计算得出的订正后风速值均方根误差;比较两个均方根误差的大小,如果订正前的均方根误差大于订正后的均方根误差,表明模型订正成功,否则模型订正失败。
第二方面,本申请提供了一种改进风速和风向预报准确率系统,该系统包括:获取模块,用于获取风向与气压以及风速与气压的历史数据,根据所述历史数据来源不同,分为第一观测数据集与第一预报数据集,其中所述第一预报数据集用于训练和测试模型,所述第一观测数据集用于检验模型预报的准确率;第一处理模块,用于获取基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值;第二处理模块,用于获取基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集;第三处理模块,用于获取基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成最强分类器;训练模块,用于基于所述最强分类器,提取所述最强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值;结果输出模块,用于将基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果。
第三方面,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
本申请至少具有以下优点:
根据本申请实施例所提供的技术内容,将获取的第一预报数据集与第一观测数据集经过奇异值分解合成,获得更新后的第二预报数据集与第二观测数据集,通过随机森林筛选出对风向与风速影响最大的特征值集合,组成强分类器,通过强分类器中的特征值集训练得到梯度提升模型,再根据梯度提升模型计算得到预报风速值,从而提高风向和风速的预报准确率,根据绘制不同来源得到的风速值,与预报风速值比对,可直观查看梯度提升模型的风速预报效果,进而提高风功率预测准确率,实现对风资源的有效利用。
附图说明
图1为一个实施例中显示风速和风向预报准确率方法的应用环境图;
图2为一个实施例中显示风速和风向预报准确率方法的流程示意图;
图3为一个实施例中显示风速和风向预报准确率方法的流程框图;
图4为一个实施例中显示步骤205的流程示意图;
图5为一个实施例中显示步骤207的流程示意图;
图6为一个实施例中显示决策树的结构图;
图7为一个实施例中显示随机森林筛选的结构图;
图8为一个实施例中显示步骤209的流程示意图;
图9为一个实施例中强分类器的结构图;
图10为一个实施例中风速和风向预报准确率系统的结构框图;
图11为一个实施例中计算机设备的示意性结构图。
具体实施方式
以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了方便理解,首先对本申请所适用的系统进行描述。本申请提供的一种风速和风向预报准确率方法,可以应用于如图1所示的系统架构中。该系统包括:用户空间文件服务器103和终端设备101,终端设备101通过网络与用户空间文件服务器103通过网络进行通信。其中,用户空间文件服务器103可以是一个基于NFSv3\v4协议的文件服务器,运行在Linux 坏境下,而NFS(网络文件系统)是文件系统之上的一个网络抽象,可允许运行于终端设备101的远程客户端以与本地文件系统相类似的方式,通过网络进行访问。终端设备101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等,用户空间文件服务器103可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为本申请实施例提供的一种风速和风向预报准确率方法的流程示意图,该方法可以由如图1所示系统中的用户空间文件服务器执行。如图 2、图3所示,该方法可以包括以下步骤:
步骤201:获取风向与气压以及风速与气压的历史数据,根据历史数据来源不同,分为第一观测数据集与第一预报数据集,其中第一预报数据集用于训练和测试模型,第一观测数据集用于检验模型预报的准确率;
在本实施例中,需要说明的是,第一观测数据集来源是下载美国免费的CCMPv2风场数据,这里举例说明的是采用时间长度为2016年-2020年 5年内的冬季数据,比如2011年冬季指2011年12月1日-2012年2月29 日,空间范围为15°N-55°N、70°E-140°E,数据的时间分辨率为6小时,空间分辨率为0.25°x0.25°,数据包含的时间、经度、纬度、10米纬向风、10米经向风等5个气象要素的观测数据。该数据是二维格点数据。第一预报数据集是用于训练模型和测试模型,其来源是下载欧洲中心开放的预报数据,对应与第一观测数据集,这里举例说明的是采用时间长度同样为2016年-2020年5年内的冬季数据,只获取起报时间为每日北京市20 时,其中每天预报四次02时、08时、14时、20时、预报时效为0-24小时的数据;空间范围为15°N-55°N、70°E-140°E。数据时间分辨率为 3小时,空间分辨率为0.4°x0.4°,数据包含的地面气象要素有时间、经度、纬度、10米纬向风、10米经向风、2米气温、总降水量、海平面气压、平均海平面气压等22个,及地面以上925hPa、850hPa、700hPa、500hPa、 300hPa、250hPa、200hPa和50hPa等压面上的气象要素有时间、经度、纬度、纬向风、经向风、位势高度、温度、相对湿度、比湿、涡度、散度等 88个,因此共有110个气象要素的预报数据,每个气象要素都是一个特征。该数据是三维格点数据。
步骤203:基于获取的第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值。
在本实施例中,需要说明的是,奇异值分解(Singular Value Decomposition,简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。
步骤205:基于获得的相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新第一预报数据集获得第二预报数据集;
在本实施例中,需要说明的是,奇异值分解后,当前a个模态的累积方差贡献超过95%时,选取这些模态和对应的时间系数,进行合成分析,及用于随机森林分类的特征,并将合成分析结果放入第一预报数据集中,实现对第一预报数据集的更新。
步骤207:基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成强分类器。
在本实施例中,需要说明的是,在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林是利用自举汇聚法即有放回抽样,对第二预报数据集抽取样本,获得新的数据集即训练样本,再随机抽取特征集合,训练得到多棵决策树,对多棵决策树的特征重要性投票取众数,获得最终的强分类器。
步骤209:基于强分类器,提取强分类器中的相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值。
在本实施例中,需要说明的是,梯度提升法是梯度下降法和提升法两种方法的组合使用。在每一轮的迭代中,首先计算出当前模型在所有样本上的负梯度,然后以该值为目标训练一个新的决策树进行拟合并计算出该决策树的权重,最终实现对模型的更新,得到准确的预报风速值。
步骤211:基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果。
在本实施例中,需要说明的是,通过比较订正前的均方根与订正后的均方根误差,来查看通过梯度提升模型计算的预报风速的准确度。
在一些实施例中,在步骤203,基于获取的第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值之前,包括将获取的所述第一观测数据集与所述第一预报数据集进行数据预处理,得到空间分辨率和时间分辨率相同的所述第一观测数据集和所述第一预报数据集。
在本实施例中,需要说明的是,对观测数据与预报数据分别做空间插值和时间插值,得到空间分辨率和时间分辨率相同的观测数据和预报数据。
利用给定的经纬度获取每一个格点的海拔高度,并分别计算每一个格点与周围八个格点的海拔高度差,求平均后作为该格点的海拔高度差,将海拔高度和海拔高度差分别放入观测数据和预报数据集。
利用纬向风和经向风合成风速、风向两个量,并删除观测数据和预报数据集中的纬向风和经向风。
利用气压-位势高度公式:其中φ1是地面以上925hPa 等等压面上的位势高度,φ0是地面位势高度,Rd是干空气的理想气体常数, g是重力加速度,p1是由φ1转换后的气压,P0是海平面气压,Tv是虚温,是气压的函数。由以上气压-位势高度公式,将地面以上的位势高度转换为气压,即目前有九层气压(海平面气压即地面以上八层)。保留位势高度数据,因此此时的气象要素增加到136个。
对于九层中的每一层气压,计算每个点与周围八个点的气压差,并求平均,作为该点的气压差数据,此时气象要素增加到143个。
将观测数据展平为一维数据,剔除时间、经度、纬度;
将预报数据展平为一维数据,剔除时间、经度、纬度。剔除后,剩余的118个气象要素即为118个特征。
参照图2、图3所示,在一些实施例中,在步骤203,基于获取的第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值,具体包括基于第一预报数据集中的风向或风速与经过数据预处理的每一层气压作为输入值,获得奇异向量场;其中包括风速或风向与海平面气压的同类相关分布的左奇异向量和右奇异向量、异类相关分布的左奇异向量和右奇异向量以及对应的时间系数、累积协方差贡献以及计算的多个模态的相关系数;重复上述步骤,直到获得风速或风向与其他各层气压的奇异值分解结果。
在本实施例中,需要说明的是,利用风向或风速与经过数据前处理的每一层气压做奇异值分解。以风速和海平面气压的奇异值分解为例,说明奇异值分解过程。
利用第一预报数据集中2016-2020年冬季451天1804个时次的风速和海平面气压做为输入数据,每个时次包括17776个空间点。奇异值分解后,获得17776个模态的奇异向量场,包括风速与海平面气压的同类相关分布的左奇异向量,其中风速的一部分,比如奇异值分解前风速为5米每秒,这里可以是3米每秒和右奇异向量,其中海平面气压的一部分、异类相关分布的左奇异向量,其中风速的一部分和右奇异向量,其中海平面气压的一部分、对应的时间系数、累积协方差贡献、17776个模态的相关系数。
重复上述步骤,直到获得风速与其他八层气压的奇异值分解结果;
重复上述步骤,直到获得风向与九层气压的奇异值分解结果。
参照图2、图4所示,在一些实施例中,步骤205,基于获得的相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新第一预报数据集获得第二预报数据集,包括:
步骤2051,基于异类相关分布的左奇异向量对应的时间系数,挑选极大值并用每一个极大值乘以左奇异向量,求和后获得用于随林森林分类的一个特征;
步骤2052,挑选极小值并用每一个极小值乘以左奇异向量,求和后获得用于随林森林分类的一个特征;
步骤2053,重复上述步骤,直到获得多个模态的特征,最终获得用于随机森林的分类特征;
步骤2054,针对异类相关分布的右奇异向量及对应的时间系数,重复上述步骤,获得用于随机森林分类的特征;
步骤2055,重复上述步骤,直到获得风速或风向与其他对应层气压的合成分析结果及用于随机森林分类的特征;
步骤2056,将合成分析结果放入第一预报数据集,获得更新后的第二预报数据集。
在本实施例中,需要说明的是,针对异类相关分布的第一个左奇异向量对应的时间系数,挑选极大值并用每一个极大值乘以第一个左奇异向量,求和后获得用于随林森林分类的一个特征,记为风速101;挑选极小值并用每一个极小值乘以第一个左奇异向量,求和后获得用于随林森林分类的一个特征,记为风速1001;
重复上述步骤,直到获得第a个模态的特征,记为风速10a和风速100a。
将以上a个极大值的合成分析求和,获得用于随机森林的一个特征。记为风速95;将以上a个极小值的合成分析求和,获得用于随机森林的一个特征。记为风速095。
针对异类相关分布的前a个右奇异向量及对应的时间系数,重复上述步骤,获得用于随机森林分类的特征,海平面气压101,.....,海平面气压 10a,海平面气压95;海平面气压1001,.....,海平面气压100a,海平面气压095等。
重复上述步骤,直到获得风速与其他八层气压的合成分析结果及用于随机森林分类的特征,并将合成分析结果放入第一预报数据集;
重复上述步骤,直到获得风向与九层气压的合成分析结果及用于随机森林分类的特征,并将合成分析结果放入第一预报数据集,最终获得更新后的第二预报数据集。
参照图5、图6所示,在一些实施例中,步骤207,基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成强分类器包括:
S2071,对第二预报数据集按比例分别抽取样本,将抽取的样本以及对应的第二观测数据集组合获得第二训练集,剩下第二预报数据集未被抽取的数据以及对应的第二观测数据集组合形成第二测试集,用于评估训练集的准确率;
S2072,基于相关特征值对训练集划分抽取,组成特征值集合,基于抽取的特征值集合,训练得到多棵决策树;
S2073,对多棵决策树的相关特征值重要性投票,投票提取前特定数量的重要相关特征值,组合获得最终的强分类器。
在本实施例中,需要说明的是,对第二预报数据集有放回抽样时,由可得约有36.8%的数据不会被抽到,将没被抽到的数据作为测试集评估训练集的准确率。因此将第三预报数据分为第三训练集和第三测试集,并将对应的时间地点的第三观测数据放入第三训练集以及第三测试集中,其中第三测试集约占30%。
参照图6,基于抽取的特征值集合,训练得到多棵决策树,这里决策树是利用特征对数据进行划分,再做出决策,每个决策树都是一个弱分类器。以海平面气压为根节点的1棵决策树为例,根节点和内部节点海平面气压差、海拔高度、500hPa风速等都是特征,叶节点风速大、风速小等代表分类结果。在各个训练样本上训练得到不同的决策树模型。
参照图7,多个决策树经过计算特征的重要性,这里通过投票提取前 50个特征,组成一个强分类器。其中计算特征的重要性是对随机森林的第i个决策树,使用相应的袋外数据即第三测试集计算第i个决策树的袋外数据误差,通过以下公式描述:
随机对袋外数据样本的某个特征x加入噪声干扰,再计算第i个决策树的袋外数据误差,通过以下公式描述:
对于随机森林的每个决策树,计算结果越大,表明在加入噪声干扰后,袋外数据的准确率降低幅度越大,特征x对样本的分类结果影响越大,特征x的重要程度越高。再根据得到的特征重要性降序排序,提取前50个特征,得到新的对风速影响最大的特征集合。
重复上述计算的过程,得到对风向影响最大的前50个特征的集合。
参照图8,在一些实施例中,步骤209,基于最强分类器,提取最强分类器中的相关特征值的气象要素数据,形成第三预报数据集以及对应的同一时间地点的第三观测数据集,根据梯度提升模型计算得到预报风速值包括:
S2091,对第三预报数据集按比例分别抽取样本,将抽取的样本以及对应的第三观测数据集组合获得第三训练集,剩下第三预报数据集未被抽取的数据以及对应的第三观测数据集组合形成第三测试集,用于评估训练集的准确率;
S2092,基于第三预报数据集以及对应的第三观测数据集,定义一个损失函数,要使每次训练的损失函数最小,通过公式(1)进行描述,
步骤2093,基于第三训练集根据损失函数的负梯度信息训练新加入的回归决策树,并获得预报正确的数据和剩余数据;
S2094,调整数据分布,给预报正确的数据小权重,给剩余数据中预报错误的数据大权重,在此基础上得到更新后的训练集,使用当前的回归决策树拟合更新后的训练集,得到新的回归决策树、预报正确的数据和剩余数据;
S2095,重复上述步骤,直到预报数据的错误率小于5%时停止分类;
S2096,取前预设数量个预报正确率最高的的决策树,得到强学习器;
S2097,基于第三测试集根据强学习器,计算梯度提升模型预报的风速值。
在本实施例中,需要说明的是,利用随机森林获得的强分类器包含多个对风速影响最大的特征,提取这些特征也即气象要素的数据,形成第三预报数据集和对应的第三观测数据集。将第三预报数据集分为训练集和测试集,这里第三测试集占30%;将对应的第三观测数据分别放入对应的第三训练集和第三测试集即第三训练集包括第三预报数据和对应的第三观测数据。
定义每次训练的步长eps=0.1,选取初值θ0,不断迭代,更新值,使每次训练之后的损失函数更小,并得到第1棵回归决策树1、预报正确的数据1、预报正确数据之外的剩余数据1。
调整数据分布,给预报正确的数据1小权重,给剩余数据1中预报错误的数据大权重,在此基础上得到更新后的训练集V2,用新的负梯度训练得到第2棵回归决策树2,并获得预报正确的数据2、剩余数据2。重复上述步骤,直到预报数据的错误率小于5%时停止分类,此时有n个回归决策树,对回归决策树1到回归决策树n求和,最终得到强学习器,即为预报模型。
在一些实施例中,步骤211,基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果,具体包括:基于第一预报数据集与第一观测数据集计算风向和风速的均方根误差,得到订正前风速预报值的均方根误差;基于第三训练集根据梯度提升模型计算订正后的风向和风速与第一观测值的均方根误差,得到根据梯度提升模型计算得出的订正后风速值均方根误差;比较两个均方根误差的大小,如果订正前的均方根误差大于订正后的均方根误差,表明模型订正成功,否则模型订正失败。
在本实施例中,需要说明的是,通过比较订正前后的均方根误差得到精确的订正效果,订正效果通过公式描述,
在一些实施例中,步骤211,基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果,还包括:绘制根据第一预报数据集得到的风速预报值、根据梯度提升模型得出的预报风速值以及根据第一观测数据集得到的观测值的折线图,直观对比查看模型的订正效果。
在本实施例中,需要说明的是,通过绘制不同来源得到的风速值,与预报风速值比对,可直观查看梯度提升模型的风速预报效果,以便得到更精确的预报风速值。
以上各个步骤流程主要是将获取的第一预报数据集与第一观测数据集经过奇异值分解合成,获得更新后的第二预报数据集与第二观测数据集,通过随机森林筛选出对风向与风速影响最大的特征值集合,组成强分类器,通过强分类器中的特征值集训练得到梯度提升模型,再根据梯度提升模型计算得到预报风速值,从而提高风向和风速的预报准确率,进而提高风功率预测准确率,实现对风资源的有效利用。
参照图10,本申请实施了还提供了一种风速和风向预报准确率系统,该系统可以包括:获取模块、第一处理模块、第二处理模块、第三处理模块、训练模块、结果输出模块。其中各组成模块的主要功能如下:
获取模块501,用于获取风向与气压以及风速与气压的历史数据,根据历史数据来源不同,分为第一观测数据集与第一预报数据集,其中第一预报数据集用于训练和测试模型,第一观测数据集用于检验模型预报的准确率;
第一处理模块502,用于获取基于获取的第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值;
第二处理模块503,用于获取基于获得的相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新第一预报数据集获得第二预报数据集;
第三处理模块504,用于获取基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成最强分类器;
训练模块505,用于基于最强分类器,提取最强分类器中的相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值。
结果输出模块506,用于将基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果。
根据本申请的实施例,本申请还提供了一种计算机设备、一种计算机可读存储介质。
如图11所示,是根据本申请实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。
如图6所示,设备600包括计算单元601、ROM 602、RAM 603、总线604以及输入/输出(I/O)接口605,计算单元601、ROM 602以及 RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
计算单元601可以根据存储在只读存储器(ROM)602中的计算机指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机指令,来执行本申请方法实施例中的各种处理。计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601可以包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。在一些实施例中,本申请实施例提供的方法可被实现为计算机软件程序,其被有形地包含于计算机可读存储介质,例如存储单元608。
RAM 603还可存储设备600操作所需的各种程序和数据。计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。
设备600中的输入单元606、输出单元607、存储单元608和通信单元 609可以连接至I/O接口605。其中,输入单元606可以是诸如键盘、鼠标、触摸屏、麦克风等;输出单元607可以是诸如显示器、扬声器、指示灯等。设备600能够通过通信单元609与其他设备进行信息、数据等的交换。
需要说明的是,该设备还可以包括实现正常运行所必需的其他组件。也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。
用于实施本申请的方法的计算机指令可以采用一个或多个编程语言的任何组合来编写。这些计算机指令可以提供给计算单元601,使得计算机指令当由诸如处理器等计算单元601执行时使执行本申请方法实施例中涉及的各步骤。
本申请提供的计算机可读存储介质可以是有形的介质,其可以包含或存储计算机指令,用以执行本申请方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种风速和风向预报准确率方法,其特征在于,该方法包括:
获取风向与气压以及风速与气压的历史数据,根据所述历史数据来源不同,分为第一观测数据集与第一预报数据集,其中所述第一预报数据集用于训练和测试模型,所述第一观测数据集用于检验模型预报的准确率;
基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值;
基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集;
基于所述第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的所述相关特征值组成强分类器;
基于所述强分类器,提取所述强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值;
基于所述第一预报数据集与所述第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与所述第一观测数据集之间的均方根误差比对,得到所述梯度提升模型的订正效果。
2.根据权利要求1所述的风速和风向预报准确率方法,其特征在于,所述基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值之前,包括:
将获取的所述第一观测数据集与所述第一预报数据集进行数据预处理,得到空间分辨率和时间分辨率相同的所述第一观测数据集和所述第一预报数据集。
3.根据权利要求2所述的风速和风向预报准确率方法,其特征在于,所述基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值,包括:
基于所述第一预报数据集中的风向或风速与经过数据预处理的每一层气压作为输入值,获得奇异向量场;
其中包括风速或风向与海平面气压的同类相关分布的左奇异向量和右奇异向量、异类相关分布的左奇异向量和右奇异向量以及对应的时间系数、累积协方差贡献以及计算的多个模态的相关系数;
重复上述步骤,直到获得风速或风向与其他各层气压的奇异值分解结果。
4.根据权利要求3项所述的风速和风向预报准确率方法,其特征在于,所述基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集包括:基于所述异类相关分布的所述左奇异向量对应的时间系数,挑选极大值并用每一个极大值乘以所述左奇异向量,求和后获得用于随林森林分类的一个特征;
挑选极小值并用每一个极小值乘以所述左奇异向量,求和后获得用于随林森林分类的一个特征;
重复上述步骤,直到获得多个模态的特征,最终获得用于随机森林的分类特征;
针对异类相关分布的所述右奇异向量及对应的时间系数,重复上述步骤,获得用于随机森林分类的特征;
重复上述步骤,直到获得风速或风向与其他对应层气压的合成分析结果及用于随机森林分类的特征;
将合成分析结果放入所述第一预报数据集,获得更新后的所述第二预报数据集。
5.根据权利要求1所述的风速和风向预报准确率方法,其特征在于,所述基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成强分类器包括:
对所述第二预报数据集按比例分别抽取样本,将抽取的样本以及对应的所述第二观测数据集组合获得第二训练集,剩下所述第二预报数据集未被抽取的数据以及对应的所述第二观测数据集组合形成第二测试集,用于评估训练集的准确率;
基于所述相关特征值对所述训练集划分抽取,组成特征值集合,基于抽取的所述特征值集合,训练得到多棵决策树;
对所述多棵决策树的所述相关特征值重要性投票,投票提取前特定数量的重要所述相关特征值,组合获得最终的强分类器。
6.根据权利要求5所述的风速和风向预报准确率方法,其特征在于,所述基于所述最强分类器,提取所述最强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集以及对应的同一时间地点的第三观测数据集,根据梯度提升模型计算得到预报风速值,包括:
对所述第三预报数据集按比例分别抽取样本,将抽取的样本以及对应的所述第三观测数据集组合获得第三训练集,剩下所述第三预报数据集未被抽取的数据以及对应的所述第三观测数据集组合形成第三测试集,用于评估训练集的准确率;
基于所述第三预报数据集以及对应的第三观测数据集,定义一个损失函数,要使每次训练的损失函数最小,通过公式(1)进行描述,
基于所述第三训练集根据所述损失函数的负梯度信息训练新加入的回归决策树,并获得预报正确的数据和剩余数据;
调整数据分布,给所述预报正确的数据小权重,给所述剩余数据中预报错误的数据大权重,在此基础上得到更新后的训练集,使用当前的回归决策树拟合更新后的训练集,得到新的回归决策树、预报正确的数据和剩余数据;
重复上述步骤,直到所述预报数据的错误率小于5%时停止分类;
取前预设数量个预报正确率最高的的决策树,得到强学习器;
基于所述第三测试集根据所述强学习器,计算梯度提升模型预报的风速值。
7.根据权利要求6所述的风速和风向预报准确率方法,其特征在于,所述基于第一预报数据集与所述第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与所述第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果,具体包括:
基于所述第一预报数据集与所述第一观测数据集计算风向和风速的均方根误差,得到订正前风速预报值的均方根误差;
基于所述第三训练集根据梯度提升模型计算订正后的风向和风速与所述第一观测值的均方根误差,得到根据所述梯度提升模型计算得出的订正后风速值均方根误差;
比较两个均方根误差的大小,如果订正前的均方根误差大于订正后的均方根误差,表明模型订正成功,否则模型订正失败。
8.根据权利要求1所述的风速和风向预报准确率方法,其特征在于,所述基于所述第一预报数据集与所述第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与所述第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果,还包括:
绘制根据所述第一预报数据得到的风速预报值、根据所述梯度提升模型得出的预报风速值以及根据所述第一观测数据得到的观测值的折线图,直观对比查看模型的订正效果。
9.一种风速和风向预报准确率系统,其特征在于,所述系统包括:
获取模块,用于获取风向与气压以及风速与气压的历史数据,根据所述历史数据来源不同,分为第一观测数据集与第一预报数据集,其中所述第一预报数据集用于训练和测试模型,所述第一观测数据用于检验模型预报的准确率;
第一处理模块,用于获取基于获取的所述第一预报数据集根据奇异值分解法获得对应时间的风向与气压、风速与气压之间的相关特征值;
第二处理模块,用于获取基于获得的所述相关特征值合成分析获得各种气压分布形势下的风向分布、风速分布数据,更新所述第一预报数据集获得第二预报数据集;
第三处理模块,用于获取基于第二预报数据集和对应的同一时间地点的第二观测数据集根据随机森林对所述相关特征值进行特征筛选,得到对风向、风速影响最大的相关特征值组成最强分类器;
训练模块,用于基于所述最强分类器,提取所述最强分类器中的所述相关特征值的气象要素数据,形成第三预报数据集,根据梯度提升模型计算得到预报风速值;
结果输出模块,用于将基于第一预报数据集与第一观测数据集之间的均方根误差与通过梯度提升模型得到的预报风速值与第一观测数据集之间的均方根误差比对,得到梯度提升模型的订正效果。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211424528.2A CN115758876A (zh) | 2022-11-14 | 2022-11-14 | 一种风速和风向预报准确率方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211424528.2A CN115758876A (zh) | 2022-11-14 | 2022-11-14 | 一种风速和风向预报准确率方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758876A true CN115758876A (zh) | 2023-03-07 |
Family
ID=85370843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211424528.2A Pending CN115758876A (zh) | 2022-11-14 | 2022-11-14 | 一种风速和风向预报准确率方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758876A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702068A (zh) * | 2023-08-07 | 2023-09-05 | 广东电网有限责任公司阳江供电局 | 面向多地形场站的风速预报极值提取方法及相关装置 |
CN117290792A (zh) * | 2023-11-14 | 2023-12-26 | 广东省气象服务中心(广东气象影视宣传中心) | 一种基于机器学习的气压预报系统及方法 |
-
2022
- 2022-11-14 CN CN202211424528.2A patent/CN115758876A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702068A (zh) * | 2023-08-07 | 2023-09-05 | 广东电网有限责任公司阳江供电局 | 面向多地形场站的风速预报极值提取方法及相关装置 |
CN116702068B (zh) * | 2023-08-07 | 2023-12-29 | 广东电网有限责任公司阳江供电局 | 面向多地形场站的风速预报极值提取方法及相关装置 |
CN117290792A (zh) * | 2023-11-14 | 2023-12-26 | 广东省气象服务中心(广东气象影视宣传中心) | 一种基于机器学习的气压预报系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Houtekamer et al. | Review of the ensemble Kalman filter for atmospheric data assimilation | |
Choi et al. | Development of heavy rain damage prediction model using machine learning based on big data | |
Bhend et al. | An ensemble-based approach to climate reconstructions | |
TW476850B (en) | Space weather prediction system and method | |
CN111199270B (zh) | 一种基于深度学习的区域波高预报方法及终端 | |
CN115758876A (zh) | 一种风速和风向预报准确率方法、系统及计算机设备 | |
Bishop et al. | Gain form of the ensemble transform Kalman filter and its relevance to satellite data assimilation with model space ensemble covariance localization | |
Um et al. | Factor analysis and multiple regression between topography and precipitation on Jeju Island, Korea | |
CN106548016A (zh) | 基于张量时域相关性分解模型的时间序列分析方法 | |
El Gharamti et al. | Comparing adaptive prior and posterior inflation for ensemble filters using an atmospheric general circulation model | |
CN114254767A (zh) | 基于Stacking集成学习的气象水文特征预测方法及系统 | |
Sunyer et al. | Regional interdependency of precipitation indices across Denmark in two ensembles of high-resolution RCMs | |
Chiri et al. | Statistical simulation of ocean current patterns using autoregressive logistic regression models: A case study in the Gulf of Mexico | |
Li et al. | Leveraging LSTM for rapid intensifications prediction of tropical cyclones | |
Chen et al. | Proactive quality control: Observing system simulation experiments with the Lorenz’96 model | |
Ha et al. | Error correction of meteorological data obtained with Mini-AWSs based on machine learning | |
Athukorala et al. | Evaluating the performance of a WRF physics ensemble in simulating rainfall over Lao PDR during wet and dry seasons | |
CN114595876A (zh) | 一种区域风场预测模型生成方法和装置、电子设备 | |
KR102496876B1 (ko) | 산불 위험 계절 예보 장치 및 방법 | |
Leeuwenburgh | Validation of an EnKF system for OGCM initialization assimilating temperature, salinity, and surface height measurements | |
Majhi et al. | Quantification of model uncertainty in sub-daily extreme precipitation projections | |
Bertolacci et al. | Climate inference on daily rainfall across the Australian continent, 1876–2015 | |
Chaowiwat et al. | Future changes in extreme rainfall over Thailand using multi-bias corrected GCM rainfall data | |
Liu et al. | Comparison between Local Ensemble Transform Kalman Filter and PSAS in the NASA finite volume GCM–perfect model experiments | |
Cavanaugh et al. | Probabilistic tail dependence of intense precipitation on spatiotemporal scale in observations, reanalyses, and GCMs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |