CN114529035A - 一种基于cart的多模式集成模型的风速预报方法 - Google Patents
一种基于cart的多模式集成模型的风速预报方法 Download PDFInfo
- Publication number
- CN114529035A CN114529035A CN202111633421.4A CN202111633421A CN114529035A CN 114529035 A CN114529035 A CN 114529035A CN 202111633421 A CN202111633421 A CN 202111633421A CN 114529035 A CN114529035 A CN 114529035A
- Authority
- CN
- China
- Prior art keywords
- data
- forecasting
- mode
- cart
- wind speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013277 forecasting method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000010835 comparative analysis Methods 0.000 claims abstract description 11
- 230000008030 elimination Effects 0.000 claims abstract description 9
- 238000003379 elimination reaction Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000013138 pruning Methods 0.000 claims description 39
- 238000003066 decision tree Methods 0.000 claims description 17
- 230000010354 integration Effects 0.000 claims description 15
- 238000005192 partition Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 21
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012417 linear regression Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于CART的多模式集成模型的风速预报方法,包括步骤:1)获取数据资料,利用双三次插值将获取的数据资料插值到0.1°×0.1°分辨率的细网格上;2)对数据资料进行预处理,筛选样本资料,并将样本资料划分为训练期数据,和预报期数据;3)比较预报期内各预报模式与观测的误差,并分析各模式的预报准确性;4)根据训练期数据建立基于CART的多模式集成模型,并建立基于消除偏差集合平均方法的模式集成的预测模型作为对比;5)采用预报期数据输入基于CART的多模式集成模型进行预测,获取预测结果,并采用均方根误差对预测误差进行对比分析。与现有技术相比,本发明具有适合于对多特征变量的复杂数据进行建模、预报效果好等优点。
Description
技术领域
本发明涉及风速预测技术领域,尤其是涉及一种基于CART的多模式集成模型的风速预报方法。
背景技术
数值气象预报技术在新能源发电如风力发电、光伏发电等和重大气象灾害(寒潮、覆冰、洪涝等)的预报预警方面发挥着极其重要的作用,因此开展精细化预报是天气预报发展的一个重要性战略目标。然而由于各国际性天气预报研究组织所提供的预报结果,其单一模式本身的系统性误差以及其初始场的不确定性,导致不同气象要素的数值预报仍具有不同程度的误差,各预报研究机构需要提高其预报技巧以减小预报偏差。近年来,精细化预报技术迅速发展,已实现由单一确定性预报转向多模式集成数值预报,即将两个相互独立的预报结果进行组合。研究发现,与单一模式预报输出相比,多模式集成预报的输出结果具有稳定、预报技巧更好、预测偏差更小的特点。因此,在国内外得到了广泛的应用和研究。
目前多模式集成方法对于提高预报精度具有一定的效果,但是也存在缺点。神经网络可以很好的应对非线性模型,但是需要大量的训练数据。普通的线性回归方法不需要大量的数据,但预报精度还有很大的提升空间。基本的线性回归模型属于全局的模型,在线性回归模型中,其前提是假设全局的数据之间是线性的,通过拟合所有的样本点,训练得到最终的模型。然而在实际气象预报中的很多问题是非线性的,且变量之间的关系复杂。当处理这类复杂的数据的回归问题时,特征之间的关系并不是简单的线性关系,此时,不可能利用全局的线性回归模型拟合这类数据,进而无法实现准确的预测效果。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于CART的多模式集成模型的风速预报方法。
本发明的目的可以通过以下技术方案来实现:
一种基于CART的多模式集成模型的风速预报方法,该方法包括下列步骤:
1)获取数据资料,利用双三次插值将获取的数据资料插值到0.1°×0.1°分辨率的细网格上。
2)对数据资料进行预处理,筛选样本资料,并将样本资料划分为训练期数据,和预报期数据。
3)比较预报期内各预报模式与观测的误差,并分析各模式的预报准确性。
4)根据训练期数据建立基于CART的多模式集成模型,并建立基于消除偏差集合平均方法的模式集成的预测模型作为对比。
5)采用预报期数据输入基于CART的多模式集成模型进行预测,获取预测结果,并采用均方根误差对预测误差进行对比分析。
进一步地,所述数据资料包括风速预报模式数据以及观测资料。
所述风速预报模式数据取自TIGGE资料集下欧洲中期天气预报中心和美国国家环境预报中心的全球集合预报模式每天00时起报的10m风速的各自集合成员的平均;所述观测资料采用ERA5再分析资料每天00时起报的控制预报的初始场。
进一步地,对数据资料进行预处理的具体步骤包括:
201)将风速预报模式数据中分辨率为0.5°×0.5°的ECMWF的预报数据、分辨率为0.5°×0.5°的NCEP的预报数据以及分辨率为0.25°×0.25°的ERA5的观测资料通过双三次插值将分辨率提高至0.1°×0.1°;
202)选取经纬度一致的风速预报模式数据以及观测资料,将数据进行预处理,筛选合理数据后,选择最终的总样本资料长度以及训练期数据。
进一步地,根据训练期数据建立基于CART的多模式集成模型的具体步骤包括:
401)一个回归树对应着输入空间,即特征空间的一个划分以及划分的单元上的输出值,假设已将输入空间划分为M个单元R1,R2,…,Rm,且在每一个单元Rm上有一个固定的输出值cm,则回归模型可表示为:
进而计算模型输出值与实际值的误差:
假设X与Y分别为输入变量和输出变量,且Y为连续变量,给定训练集:
D=(x1,y1),(x2,y2),…,(xn,yn)
其中,D表示整个数据集合,yn为第n个样本的输出值;
402)假设选择变量x(j)为切分变量,其取值s为切分点,将小于或者等于s的取值划分至左子树中,否则划分至右子树中,则可获取两个区域:
R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s}
此时:
式中,Nm为各个区域的样本数量,并求解:
遍历变量j,扫描切分点s,选择使m(s)取得最小值的对(j,s),其中Rm为被划分的输入空间,cm为空间Rm对应的输出值;
403)采用选定的对(j,s)划分区域并决定相应的输出值;
404)继续对两个子区域调用步骤402)、403),直至满足停止条件;
405)将输入空间划分为M个区域R1,R2,…,Rm,生成决策树:
406)对于多特征输入,在前一个特征输入生成决策树并得出残差的基础上,利用后一个特征输入建立决策树去拟合残差,并整合回归树:
f=f(X1)+f(X2)+…。
整合回归树后,还包括回归树的剪枝操作,具体步骤包括:
(1)当位于节点t的任意一棵子树Tt,在没有剪枝的情况下,其损失函数为:
Cα(Tt)=C(Tt)+α|Tt|
式中,α为正则化参数,C(Tt)为训练数据的误差,|Tt|为叶子节点的数量;
当剪枝到根节点,即只保留根节点,其损失函数为:
Cα(T)=C(Tt)+α
当α=0或者接近于0时,则有:Cα(Tt)<Cα(T);当α增大到一定程度时:Cα(Tt)=Cα(T);因此当T和Tt满足Cα(Tt)=Cα(T),即:对Tt进行剪枝,将子节点全部剪掉,剩下一个叶子节点T;
(2)当计算出所有节点是否剪枝的α后,将α对应的最优子树在训练集上进行交叉验证,找到最优子树作为最终结果。
进一步地,建立基于消除偏差集合平均方法的模式集成的预测模型的表达式为:
进一步地,采用均方根误差对预测误差进行对比分析的公式为:
式中,fi代表第i个样本的模式预报值;oi为与之对应的观测值,n为样本数。
本发明提供的基于CART的多模式集成模型的风速预报方法,相较于现有技术至少包括如下有益效果:
1)本发明考虑到实际气象预报中的很多问题是非线性的,变量之间的关系复杂,当处理这类复杂的数据的回归问题时,特征之间的关系并不是简单的线性关系,此时,不可能利用全局的线性回归模型拟合这类数据,本发明提出用CART算法来解决,将全局的数据集划分成多个容易建模的数据集,在每一个局部的数据集上进行局部的回归建模,可实现对非线性数据的更好拟合,适合于对多特征变量的复杂数据进行建模;通过对比分析,本发明所提出的回归树模型表现出更好的集成效果。
2)本发明所提及的回归树的生成中,为了防止过拟合,提升泛化能力,限制叶子节点含有的最小样本数,并对优化后的回归树进行后剪枝,从而获得最佳的预报效果。
3)本发明针对复杂的风速数据采用树回归算法建立多模式集成模型,通过将CART算法应用到回归问题中,改进了算法的建模,提升了算法的优化性能,与传统的线性回归类似,在训练时只需要少量的训练数据,且相比于线性回归,树回归更适合处理复杂非线性的问题。
4)关于气象预报模式的低分辨率风速数据与观测的高分辨率数据比匹配的问题,本发明采用插值的方法能够将低分辨率的预报模式数据插值到细网格上,并选取经纬度一致的预报和观测信息,并将数据进行预处理,筛选合理数据后,可用于后续仿真建模,在数据处理上更加准确,可进一步提高风速预报的准确度。
附图说明
图1为实施例中基于CART的多模式集成模型的风速预报方法的主要流程示意图;
图2为实施例中CART算法流程图;
图3为实施例中回归树模型生成的流程图;
图4为实施例中提及的剪枝的流程图;
图5为实施例中ECMWF和NCEP模式的地面风速预报数据与观测数据对比图;
图6为实施例中回归树建模中叶节点包含的最小样本数与误差的关系图;
图7为实施例中剪枝后的回归树模型;
图8为实施例中经CART地面风速预报与观测对比图;
图9为实施例中经BREM地面风速预报与观测对比图;
图10为实施例中ECMWF、NCEP与BREM、CART地面风速预报与观测值的均方根误差对比。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
本发明针对目前多模式集成方法的训练量大、数据复杂导致的预测不精确的缺陷,提出了用CART算法(Classification And Regression Tree分类回归树算法)来解决的技术方案,提出了一种方法,能够提升预报性能。本发明方法针对复杂的风速数据,将全局的数据集划分成多个容易建模的数据集,在每一个局部的数据集上进行局部的回归建模。与传统的线性回归类似,树回归算法在训练时只需要少量的训练数据。相比于线性回归,树回归更适合处理复杂非线性的问题。
具体地,图1示出了基于CART的多模式集成模型的风速预报方法的主要流程,如图1所示,该方法具体包括如下步骤:
步骤一、获取数据资料,包括风速预报模式数据以及观测资料;利用双三次插值将获取的风速预报模式数据以及观测资料插值到0.1°×0.1°分辨率的细网格上。
数据资料的获取来源如下:
风速预报模式数据取自TIGGE资料集下欧洲中期天气预报中心(ECMWF)和美国国家环境预报中心(NCEP)两个中心全球集合预报模式每天00时(世界时)起报的10m风速的各自集合成员的平均。观测资料采用ERA5再分析资料每天00时起报的控制预报的初始场。
步骤二、将步骤一中的数据进行预处理,筛选合理数据作为样本资料。选择样本资料中一定长度的数据作为训练期数据(训练集),剩下的作为预报期数据(预测集)。
对模式数据以及观测数据进行预处理包括如下步骤:
(201)将模式预报中分辨率为0.5°×0.5°的ECMWF的预报数据、分辨率为0.5°×0.5°的NCEP的预报数据以及分辨率为0.25°×0.25°的ERA5的观测资料通过双三次插值将分辨率提高到0.1°×0.1°。
(202)选取经纬度一致的预报和观测信息。将数据进行预处理,筛选合理数据后,选择最终的总样本资料长度以及训练期数据。
步骤三、比较预报期内各预报模式与观测的误差,并分析各模式的预报准确性。
步骤四、根据训练期数据建立基于CART的多模式集成模型,并采用消除偏差集合平均的方法进行对比。
如图2所示,根据训练期数据建立基于CART的多模式集成模型的具体步骤包括:
(1)一个回归树对应着输入空间(即特征空间)的一个划分以及划分的单元上的输出值。假设已将输入空间划分为M个单元R1,R2,…,Rm,并且在每一个单元Rm上有一个固定的输出值cm,于是回归模型可表示为:
这样就可以计算模型输出值与实际值的误差:
我们希望每个单元上的cm,可以使这个误差平方误差最小化,当cm为相应单元的所有实际值的均值时,可以得到最优:
为了生成这些单元划分,可以假设X与Y分别为输入和输出变量,并且Y是连续变量,给定训练集:
D=(x1,y1),(x2,y2),…,(xn,yn)
其中,D表示整个数据集合,yn为第n个样本的输出值。
(2)假设,选择变量x(j)为切分变量,它的取值s为切分点,小于或者等于s的被划分到左子树中,否则划分到右子树中,那么就会得到两个区域:
R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s}
此时:
式中,Nm为各个区域的样本数量,并求解:
遍历变量j,扫描切分点s,选择使m(s)取得最小值的对(j,s),其中Rm是被划分的输入空间,cm是空间Rm对应的输出值。
(3)用选定的对(j,s)划分区域并决定相应的输出值。
(4)继续对两个子区域调用步骤(2)、(3),直至满足停止条件。
(5)将输入空间划分为M个区域R1,R2,…,Rm,生成决策树:
(6)对于多特征输入,在前一个特征输入生成决策树并得出残差的基础上,利用后一个特征输入建立决策树去拟合残差,并整合回归树:
f=f(X1)+f(X2)+…
利用CART算法处理回归问题的主要步骤还包括回归树的剪枝,如图4所示,其原理如下:
决策树算法会出现过拟合现象,那么为了提高模型的泛化能力,降低过拟合,CART提供了剪枝的方法。剪枝的方法有预剪枝和后剪枝,预剪枝一般是在选择节点时加入的提前中止条件,这种方法存在些许不足,对误差的数量级敏感;后剪枝则是一个比较理想的方法,主要通过训练集来分割叶节点,用测试集来判断如果合并叶节点是否有降低误差。CART采用的是后剪枝的方法。剪枝的过程会产生很多剪之后的树,本实施例则采用交叉验证的方法评测各个剪枝效果,选出效果最好的树作为最终的模型。
回归树的剪枝过程在损失函数上的度量方式使用的是均方差。其流程为:
(1)当位于节点t的任意一棵子树Tt,在没有剪枝的情况下,其损失函数为:
Cα(Tt)=C(Tt)+α|Tt|
其中,α为正则化参数,C(Tt)为训练数据的误差,|Tt|为叶子节点的数量。
当剪枝到根节点,即只保留根节点,其损失函数为:
Cα(T)=C(Tt)+α
当α=0或者很小时,则:Cα(Tt)<Cα(T);当α增大到一定程度时:Cα(Tt)=Cα(T)。所以当T和Tt满足Cα(Tt)=Cα(T),即:就可以对Tt进行剪枝,将子节点全部剪掉,剩下一个叶子节点T。
(2)当计算出所有节点是否剪枝的α,将α对应的最优子树在训练集上进行交叉验证,找到最优子树作为最终结果。
在评估回归树模型的过程中,利用训练好的回归树模型对每一个样本进行预测。在预测过程中,主要分为如下情况:
(1)若此时只有根节点,则直接返回其值作为最终的预测结果;
(2)若此时结点有左、右子树,则比较样本中在索引处的值和回归树模型中在划分处的值:①若样本中在索引处的值大于回归树模型中的值,则选择右子树;②若样本中在索引处的值小于或等于回归树模型中的值,则选择左子树。
当预测完成后,利用预测的值和原始的样本标签计算残差。
在本实施例中,根据得到的训练期数据建立基于消除偏差集合平均方法的模式集成的预测模型作为对比包括如下公式:
消除偏差集合平均的计算公式为:
步骤五、采用预报期数据来验证预测模型的有效性,采用均方根误差(RMSE)对预测误差进行详细的对比分析。
在本实施例中,利用均方根误差(RMSE)对预测误差进行详细的对比分析包括如下公式:
其中,fi代表第i个样本的模式预报值;oi是与之对应的观测值;n为样本数。RMSE越小,预报值与观测值之间的误差越小,预报效果越好。
步骤六、分析消除偏差集合平均方法的局限性,以提出的树回归模型作为模式集成的预测模型,以降低预报与观测之间的误差。
基于上述流程,本发明方法在本实施例中的具体实施步骤包括:
S1:在本实施例中,数据集总共包含150个采样点,时间间隔为1d,其中采用前130个样本点作为训练样本集,后20个采样点作为测试样本集。因风速数据分为0.5°×0.5°的预报模式数据和0.25°×0.25°的观测数据,分辨率不统一,故使用Matlab中cubic方法将预报和观测资料插值到0.1°×0.1°分辨率的细网格上,并选取经纬度一致的预报和观测信息,使得输入的信息维度一致。选取的区域范围为120°52′-122°12′E,30°40′-31°53′N,选取的时间长度为2018年1月1日~5月31日,选择的预报点为121.45°E,31.4°N。
S2:采用Matlab中的fitrtree函数对得到的训练期数据进行回归树建模,叶子节点含有的最小样本数设置为30,以产生优化决策树。
S3:计算不同剪枝下的交叉检测误差,采用prune函数选择最小误差处对回归树进行剪枝。
S4:在评估回归树模型的过程中,利用训练好的回归树模型,采用predict函数,对每一个预报期样本进行预测。
S5:为验证本发明所提基于CART的多模式集成方法对提升风速预测效果的有效性,采用消除偏差集合平均的方法进行对比,采用训练样本集对模型进行训练,并分析比较2种方法的预测效果,采用均方根误差(RMSE)对预测误差进行详细的对比分析。
S1中,模式资料取自TIGGE资料集下欧洲中期天气预报中心(ECMWF)和美国国家环境预报中心(NCEP)两个中心全球集合预报模式每天00时(世界时)起报的10m风速的各自集合成员的平均。观测资料采用ERA5再分析资料每天00时起报的控制预报的初始场。
S2中,采用Matlab中的fitrtree函数对得到的训练期数据进行回归树建模,叶子节点含有的最小样本数设置为30,以产生优化决策树,结合图3所示,建立回归树模型的步骤为:
(1)一个回归树对应着输入空间(即特征空间)的一个划分以及划分的单元上的输出值。假设已将输入空间划分为M个单元R1,R2,…,Rm,并且在每一个单元Rm上有一个固定的输出值cm,于是回归模型可表示为:
这样就可以计算模型输出值与实际值的误差:
我们希望每个单元上的cm,可以使这个误差平方误差最小化,当cm为相应单元的所有实际值的均值时,可以得到最优:
为了生成这些单元划分,可以假设X与Y分别为输入和输出变量,并且Y是连续变量,给定训练集:
D=(x1,y1),(x2,y2),…,(xn,yn)
其中,D表示整个数据集合,yn为第n个样本的输出值。
(2)假设,我们选择变量x(j)为切分变量,它的取值s为切分点,小于或者等于s的被划分到左子树中,否则划分到右子树中,那么就会得到两个区域:
R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s}
此时:
Nm为各个区域的样本数量,并求解:
遍历变量j,扫描切分点s,选择使m(s)取得最小值的对(j,s),其中Rm是被划分的输入空间,cm是空间Rm对应的输出值。
(3)用选定的对(j,s)划分区域并决定相应的输出值。
(4)继续对两个子区域调用步骤(2)(3),直至满足停止条件。
(5)将输入空间划分为M个区域R1,R2,…,Rm,生成决策树:
(6)对于多特征输入,在前一个特征输入生成决策树并得出残差的基础上,利用后一个特征输入建立决策树去拟合残差,并整合回归树:
f=f(X1)+f(X2)+…
步骤S3中,计算不同剪枝下的交叉检测误差,采用prune函数选择最小误差处对回归树进行剪枝,包括如下步骤:
(1)当位于节点t的任意一棵子树Tt,在没有剪枝的情况下,其损失函数为:
Cα(Tt)=C(Tt)+α|Tt|
其中,α为正则化参数,C(Tt)为训练数据的误差,|Tt|为叶子节点的数量。
当剪枝到根节点,即只保留根节点,其损失函数为:
Cα(T)=C(Tt)+α
当α=0或者很小时,则:Cα(Tt)<Cα(T);当α增大到一定程度时:Cα(Tt)=Cα(T)。所以当T和Tt满足Cα(Tt)=Cα(T),即:就可以对Tt进行剪枝,将子节点全部剪掉,剩下一个叶子节点T。
(2)当计算出所有节点是否剪枝的α,将α对应的最优子树在训练集上进行交叉验证,找到最优子树作为最终结果。
步骤S4中,在评估回归树模型的过程中,利用训练好的回归树模型,采用predict函数,对每一个预报期样本进行预测。在预测过程中,主要分为如下情况:
(1)若此时只有根节点,则直接返回其值作为最终的预测结果;
(2)若此时该结点有左右子树,则比较样本中在索引处的值和回归树模型中在划分处的值:①若样本中在索引处的值大于回归树模型中的值,则选择右子树;②若样本中在索引处的值小于或等于回归树模型中的值,则选择左子树。
当预测完成后,利用预测的值和原始的样本标签计算残差。
步骤S5中,为验证本发明方法对提升风速预测效果的有效性,采用消除偏差集合平均的方法进行对比,采用训练样本集对模型进行训练,并分析比较2种方法的预测效果,采用均方根误差(RMSE)对预测误差进行详细的对比分析,包括如下公式:
消除偏差集合平均的计算公式为:
所述均方根误差(RMSE)对预测误差进行详细的对比分析包括如下公式:
其中,fi代表第i个样本的模式预报值;oi是与之对应的观测值。RMSE越小,预报值与观测值之间的误差越小,预报效果越好。
下面以一个具体实施例来进一步阐述本发明的方案:
步骤1:以上海市的风速数据为依据:模式资料取自TIGGE资料集下欧洲中期天气预报中心(ECMWF)和美国国家环境预报中心(NCEP)两个中心全球集合预报模式每天00时(世界时)起报的10m风速的各自集合成员的平均。模式的水平分辨率为0.5°×0.5°,预报时效为24h。观测资料采用ERA5再分析资料每天00时起报的控制预报的初始场。资料长度选取2018年1月1日~5月31日,选取的区域范围为120°52′-122°12′E,30°40′-31°53′N。数据集总共包含150个采样点,时间间隔为1d,其中采用前130个样本点作为训练样本集,后20个采样点作为测试样本集。
因预报模式数据和观测数据分辨率不同意,故采用双三次插值的方法将预报和观测资料插值到0.1°×0.1°分辨率的细网格上,并选取经纬度一致的预报和观测信息,使得输入的信息维度一致。
为了更好地比对仿真结果,选择上海区域内其中一个格点(121.45°E,31.4°N)进行仿真实验。
图5为预报期内预报时效为24h的各个模式在预报点的风速预报数据与观测数据的对比图。图中observation value表示观测值,由图5可清楚地看出,两个模式的预报误差不同,ECMWF的风速预报效果比NCEP要好。但是预报与观测值时间平均的均方根误差都大于1m/s。显然,这两个模式预报的结果与期望预报值有较大差异。
步骤2:采用Matlab中的fitrtree函数对得到的训练期数据进行回归树建模,限定每个叶节点包含的最少数据量,如果不进行限定,每个叶节点包含的最小数据量为1,过多的叶子节点必然造成决策树泛化能力的降低,因此应该求得一个Leaf(min),从而使得计算出交叉误差最小。由图6可得,叶子节点含有的最小样本数设置为30,以产生优化决策树。
步骤3:计算不同剪枝下的交叉检测误差,采用prune函数选择最小误差处对回归树进行剪枝,剪枝后的树模型如图7所示。
步骤4:在评估回归树模型的过程中,利用训练好的回归树模型,采用predict函数,对每一个预报期样本进行预测。图8为采样数据经过树回归后模式与观测值的对比图。可见,经过树回归后的预报值与观测值之间的误差有所减小。
步骤5:为验证本发明所提基于CART的多模式集成方法对提升风速预测效果的有效性,采用消除偏差集合平均(BREM)的方法进行对比,采用训练样本集对模型进行训练,并分析比较2种方法的预测效果。消除偏差集合平均基于滑动训练期的方法,将固定长度的训练期逐日向后滑动,每次只对距离训练期临近的一天进行预报。图9为预报期内经过消除偏差集合平均后的模式数据与观测值的对比图。由图可知,经过消除偏差集合平均后,预报与观测的拟合度有一定的提升。
采用均方根误差(RMSE)对预测误差进行详细的对比分析。图10为各个模式的风速预报和经过两种集成方法后的预报值与观测的均方根误差对比图。如图10所示,经过树回归的预报与观测的均方根误差相比于消除偏差集合平均方法有很大程度上的减小。经过消除偏差集合平均方法的集成预报的均方根误差比最佳单模式ECMWF减小了近12.91%,比NCEP减小了近45.67%。ECMWF本身的预报效果比NCEP好,所以改进的幅度也相应地比NCEP要小,这也说明了,多模式集成对预报的改进效果最终取决于模式本身的预报效果。而经过树回归的集成预报的均方根误差比ECMWF减小了近52.88%,比NCEP减小了近70.6%。由计算可得,其均方根误差与消除偏差集合平均方法相比,减小了45.9%,有了进一步的改善。可见,基于CART的多模式集成方法减小了预报误差,相比于单模式有非常好的改善效果,且从均方根误差来看,CART比消除偏差集合平均方法效果更好。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于CART的多模式集成模型的风速预报方法,其特征在于,包括下列步骤:
1)获取数据资料,利用双三次插值将获取的数据资料插值到0.1°×0.1°分辨率的细网格上;
2)对数据资料进行预处理,筛选样本资料,并将样本资料划分为训练期数据,和预报期数据;
3)比较预报期内各预报模式与观测的误差,并分析各模式的预报准确性;
4)根据训练期数据建立基于CART的多模式集成模型,并建立基于消除偏差集合平均方法的模式集成的预测模型作为对比;
5)采用预报期数据输入基于CART的多模式集成模型进行预测,获取预测结果,并采用均方根误差对预测误差进行对比分析。
2.根据权利要求1所述的基于CART的多模式集成模型的风速预报方法,其特征在于,所述数据资料包括风速预报模式数据以及观测资料。
3.根据权利要求2所述的基于CART的多模式集成模型的风速预报方法,其特征在于,所述风速预报模式数据取自TIGGE资料集下欧洲中期天气预报中心和美国国家环境预报中心的全球集合预报模式每天00时起报的10m风速的各自集合成员的平均;所述观测资料采用ERA5再分析资料每天00时起报的控制预报的初始场。
4.根据权利要求3所述的基于CART的多模式集成模型的风速预报方法,其特征在于,对数据资料进行预处理的具体步骤包括:
201)将风速预报模式数据中分辨率为0.5°×0.5°的ECMWF的预报数据、分辨率为0.5°×0.5°的NCEP的预报数据以及分辨率为0.25°×0.25°的ERA5的观测资料通过双三次插值将分辨率提高至0.1°×0.1°;
202)选取经纬度一致的风速预报模式数据以及观测资料,将数据进行预处理,筛选合理数据后,选择最终的总样本资料长度以及训练期数据。
5.根据权利要求2所述的基于CART的多模式集成模型的风速预报方法,其特征在于,根据训练期数据建立基于CART的多模式集成模型的具体步骤包括:
401)一个回归树对应着输入空间,即特征空间的一个划分以及划分的单元上的输出值,假设已将输入空间划分为M个单元R1,R2,…,Rm,且在每一个单元Rm上有一个固定的输出值cm,则回归模型可表示为:
进而计算模型输出值与实际值的误差:
假设X与Y分别为输入变量和输出变量,且Y为连续变量,给定训练集:
D=(x1,y1),(x2,y2),…,(xn,yn)
其中,D表示整个数据集合,yn为第n个样本的输出值;
402)假设选择变量x(j)为切分变量,其取值s为切分点,将小于或者等于s的取值划分至左子树中,否则划分至右子树中,则可获取两个区域:
R1(j,s)={x|x(j)≤s},R2(j,s)={x|x(j)>s}
此时:
式中,Nm为各个区域的样本数量,并求解:
遍历变量j,扫描切分点s,选择使m(s)取得最小值的对(j,s),其中Rm为被划分的输入空间,cm为空间Rm对应的输出值;
403)采用选定的对(j,s)划分区域并决定相应的输出值;
404)继续对两个子区域调用步骤402)、403),直至满足停止条件;
405)将输入空间划分为M个区域R1,R2,…,Rm,生成决策树:
406)对于多特征输入,在前一个特征输入生成决策树并得出残差的基础上,利用后一个特征输入建立决策树去拟合残差,并整合回归树:
f=f(X1)+f(X2)+…。
6.根据权利要求5所述的基于CART的多模式集成模型的风速预报方法,其特征在于,整合回归树后,还包括回归树的剪枝操作。
7.根据权利要求6所述的基于CART的多模式集成模型的风速预报方法,其特征在于,回归树的剪枝操作的具体步骤包括:
(1)当位于节点t的任意一棵子树Tt,在没有剪枝的情况下,其损失函数为:
Cα(Tt)=C(Tt)+α|Tt|
式中,α为正则化参数,C(Tt)为训练数据的误差,|Tt|为叶子节点的数量;
当剪枝到根节点,即只保留根节点,其损失函数为:
Cα(T)=C(Tt)+α
当α=0或者接近于0时,则有:Cα(Tt)<Cα(T);当α增大到一定程度时:Cα(Tt)=Cα(T);因此当T和Tt满足Cα(Tt)=Cα(T),即:对Tt进行剪枝,将子节点全部剪掉,剩下一个叶子节点T;
(2)当计算出所有节点是否剪枝的α后,将α对应的最优子树在训练集上进行交叉验证,找到最优子树作为最终结果。
8.根据权利要求7所述的基于CART的多模式集成模型的风速预报方法,其特征在于,步骤5)中,利用训练好的回归树模型对每一个样本进行预测,预测过程包括两种情况:
(1)若此时只有根节点,则直接返回其值作为最终的预测结果;
(2)若此时的结点有左、右子树,则比较样本中在索引处的值和回归树模型中在划分处的值:①若样本中在索引处的值大于回归树模型中的值,则选择右子树;②若样本中在索引处的值小于或等于回归树模型中的值,则选择左子树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111633421.4A CN114529035A (zh) | 2021-12-29 | 2021-12-29 | 一种基于cart的多模式集成模型的风速预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111633421.4A CN114529035A (zh) | 2021-12-29 | 2021-12-29 | 一种基于cart的多模式集成模型的风速预报方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529035A true CN114529035A (zh) | 2022-05-24 |
Family
ID=81619954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111633421.4A Pending CN114529035A (zh) | 2021-12-29 | 2021-12-29 | 一种基于cart的多模式集成模型的风速预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529035A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115032720A (zh) * | 2022-07-15 | 2022-09-09 | 国网上海市电力公司 | 基于随机森林的多模式集成预报在地面气温预报中的应用 |
CN115359857A (zh) * | 2022-08-22 | 2022-11-18 | 盐城工学院 | 一种基于cart模型和优化rvflnn模型预测pm2.5浓度的方法 |
-
2021
- 2021-12-29 CN CN202111633421.4A patent/CN114529035A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115032720A (zh) * | 2022-07-15 | 2022-09-09 | 国网上海市电力公司 | 基于随机森林的多模式集成预报在地面气温预报中的应用 |
CN115359857A (zh) * | 2022-08-22 | 2022-11-18 | 盐城工学院 | 一种基于cart模型和优化rvflnn模型预测pm2.5浓度的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905560B (zh) | 一种多源时空大数据深度融合的空气污染预测方法 | |
CN111310968A (zh) | 一种基于互信息的lstm神经网络循环水文预报方法 | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
GB2615205A (en) | Long term precipitation prediction model establishing method, and long-term precipitation prediction method and apparatus | |
CN114529035A (zh) | 一种基于cart的多模式集成模型的风速预报方法 | |
CN107273995A (zh) | 空气质量预报方法 | |
CN111369057A (zh) | 一种基于深度学习的空气质量预测优化方法及系统 | |
CN111259522B (zh) | 一种水文模型在地理空间上多流域并行率定的方法 | |
CN113592132B (zh) | 一种基于数值天气预报和人工智能的降水客观预报方法 | |
Keller et al. | Downscaling approaches of climate change projections for watershed modeling: Review of theoretical and practical considerations | |
CN113108918B (zh) | 一种极轨气象卫星热红外遥感数据反演气温方法 | |
Meydani et al. | Daily reservoir inflow forecasting using weather forecast downscaling and rainfall-runoff modeling: Application to Urmia Lake basin, Iran | |
CN112381299A (zh) | 一种确定空气质量的方法及装置 | |
CN109214591B (zh) | 一种木本植物地上生物量预测方法及系统 | |
Metia et al. | Urban air pollution estimation using unscented Kalman filtered inverse modeling with scaled monitoring data | |
CN114219131A (zh) | 一种基于lstm的流域径流预测方法 | |
CN114004163A (zh) | 一种基于modis和长短时记忆网络模型的pm2.5反演方法 | |
Zhao et al. | Monthly precipitation prediction in Luoyang city based on EEMD-LSTM-ARIMA model | |
CN117909888B (zh) | 智慧人工智能气候预测方法 | |
CN116127833A (zh) | 基于vmd和lstm融合模型的风电功率预测方法、系统、装置及介质 | |
Pathan et al. | Efficient forecasting of precipitation using LSTM | |
Zhang et al. | Enhancing daily streamflow simulation using the coupled SWAT-BiLSTM approach for climate change impact assessment in Hai-River Basin | |
CN115049013A (zh) | 一种联合线性和svm的短时降雨预警模型融合方法 | |
CN117932470A (zh) | 一种基于动态贝叶斯网络的月径流预报方法 | |
Ma et al. | Statistical post-processing of multiple meteorological elements using the multimodel integration embedded method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |