CN106503459A - 一种改进随机森林气温数据质量控制方法 - Google Patents

一种改进随机森林气温数据质量控制方法 Download PDF

Info

Publication number
CN106503459A
CN106503459A CN201610949916.0A CN201610949916A CN106503459A CN 106503459 A CN106503459 A CN 106503459A CN 201610949916 A CN201610949916 A CN 201610949916A CN 106503459 A CN106503459 A CN 106503459A
Authority
CN
China
Prior art keywords
data
random forest
quality control
value
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610949916.0A
Other languages
English (en)
Other versions
CN106503459B (zh
Inventor
叶小岭
杨星
熊雄
姚润进
沈云培
陈洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongke Huaxing Emergency Technology Research Institute Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201610949916.0A priority Critical patent/CN106503459B/zh
Publication of CN106503459A publication Critical patent/CN106503459A/zh
Application granted granted Critical
Publication of CN106503459B publication Critical patent/CN106503459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种改进随机森林气温数据质量控制方法,将经过粒子群算法优化后的随机森林算法用于气象观测站进行气象要素质量控制。该方法首先对一定范围内的地面气象观测数据进行采集,然后对采集的数据做基本质量控制后,再利用粒子群算法寻找随机森林回归模型的最优mtry值和ntree值参数,使用改进随机森林方法按时间和空间序列对数据进行训练,得到一个基于改进随机森林的质量控制模型,并利用测试集进行回归预测,最后与目标站实际观测数据进行对比,观察模型识别观测数据中错误数据的能力。该方法有效的利用了我国多年积累的宝贵气象数据资料,在质量控制方面比传统方法更加高效、准确度高、适应性强,提高了气象观测站气象数据的质量。

Description

一种改进随机森林气温数据质量控制方法
技术领域
本发明涉及地面观测站采集数据的质量控制领域,特别是针对温度数据的质量控制方法。
背景技术
中国自1951年以来就有近1800个气象站,气象数据的积累丰富,然而这些气象数据中可能存在一些观测、录入和传输等错误,这些错误降低了气象站观测数据的质量,对气象的研究产生了阻力,因此对气象数据的质量控制成为了气象数据应用中不可或缺的环节。
地面气象站观测数据质量控制一般分为两类,一类是单站质量控制方法,主要包括极值检查、气候极值检查、内部一致性检查、时间一致性检查;另一类是多站联网质量控制方法,目前国内外已经提出了很多质量控制的方法,例如数值预报模式插值方法、反距离加权发和空间回归检测方法等等。
发明内容
本发明的目的在于克服以上技术不足之处,针对多站质量控制的不足提出一种改进随机森林气温数据质量控制方法,解决了目前多站联网质量控制方法不稳定、准确度不高的问题,具体由以下的方案实现:
所述地面气象观测站观测的气温数据质量控制方法,包括以下步骤:
步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;
步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;
步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;
步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,所以需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;
步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;
步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree,利用粒子群算法寻找袋外误差最小的k值;
步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;
步骤8.将预测值与实际观测值进行比较,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。
其中,步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。
其中,步骤4中的粒子群算法寻优过程为其中q维粒子表示为xi=(xi1,xi2,L,xiq),每个粒子对应的速度可以表示为vi=(vi1,vi2,L,viq),每个粒子在搜索时考虑历史最优值pi和全部粒子搜索到的最优值pg,w是惯性权重,c1是粒子跟踪自己历史最优值权重系数,c2是粒子跟踪群里最优值的权重系数,ξ、η是区间[0,1]内均匀分布的随机数,r是约束因子。
其中,步骤8中所述检错方法公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数据记为存疑数据,通过这样的方法来实现对数据的质量控制。
有益效果
本发明的一种改进随机森林气温数据质量控制方法,通过周围邻近站点的气温观测数据,利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型,提出了一种新的多站联网质量控制方法,模型搭建速度快,泛化能力强,能够有效的提高地面观测数据的准确性。
附图说明
图1是本发明方法的流程图;
图2是本发明方法OOB误差与mtry值与ntree值之间的关系图;
图3是本发明方法与反距离加权和空间回归检验方法的MAE、RMSE效果对比图。
图4是本发明方法与反距离加权和空间回归检验方法月02:00时均温实际观测值与预测值对比图。
具体实施方式
下面结合附图就实施例对本发明进行进一步说明。
本实施例的改进随机森林气温数据质量控制方法,如图1所示将甘肃站及周围的83个站点2005年到2014年逐日02:00时气温数据进行实施例分析,进一步说明本发明:
步骤1:采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间,本实施例中T=3654;
步骤2.采集采样时间T内的83个邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数,在本实施例中n=83;
步骤3.对采集到的数据X0(t)和Xi(t)进行基本质量控制,得到新的数据集x0(t)和xi(t),取样本中1-3289行的数据作为训练集,3290-3654行的数据作为测试集;
步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry会使模型得到不同的袋外误差,所以需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值完成模型的建立,本实施例中mtry=60,ntree=435;
步骤5.使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;
步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree在实施例中设为435;
步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;
步骤8.将预测值与实际观测值进行比较,通过均方根误差(RMSE)和平均绝对误差(MAE)比较随机森林质量控制效果,在实施例中MAE为0.319,RMSE为0.825。
为了分析本方法的优点,将同样的数据应用与反距离加权方法和空间回归检验方法中,并进行对比,如图2所示,本方法得到的平均绝对误差(MAE)和均方根误差(RMSE)明显要优于另外两种方法。
本实施例通过周围邻近站点气温观测数据,利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型,提出了一种新的多站联网质量控制方法,模型搭建速度快,泛化能力强,能够有效的提高地面观测数据的准确性。通过图3与图4的对比分析验证本发明方法质量控制效果明显。

Claims (4)

1.一种改进随机森林气温数据质量控制方法,其特征在于:包括以下步骤:
步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;
步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;
步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;
步骤4:使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,不同的参数值mtry和ntree会使模型得到不同的袋外误差,需要寻找最优参数值,利用粒子群算法对随机森林中的参数值mtry和ntree进行寻优,利用最优mtry和ntree值建立模型;
步骤5:使用随机森林方法对训练集数据进行建模,回归树节点分裂参考的随机特征变量决定模型的好坏,随机特征变量的数量即为mtry值,随机森林中每颗回归树使用最小剩余方差来决定,划分准则是期望划分后的子树方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl为划分到左边的概率,Var(Yl)为左边数值的方差,Pr和Var(Yr)为对应右边的概率与数值方差,m为参与分裂样本数;
步骤6.重复步骤4和5k次得到随机森林质量控制模型,k的大小即是树的数量ntree,利用粒子群算法寻找袋外误差最小的k值;
步骤7.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;
步骤8.将预测值与实际观测值进行比较,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。
2.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。
3.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤4中的粒子群算法寻优过程为其中q维粒子表示为xi=(xi1,xi2,L,xiq),每个粒子对应的速度可以表示为vi=(vi1,vi2,L,viq),每个粒子在搜索时考虑历史最优值pi和全部粒子搜索到的最优值pg,w是惯性权重,c1是粒子跟踪自己历史最优值权重系数,c2是粒子跟踪群里最优值的权重系数,ξ、η是区间[0,1]内均匀分布的随机数,r是约束因子。
4.根据权利要求1所述的改进随机森林气温数据质量控制方法,其特征在于:步骤8中所述检错方法公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数据记为存疑数据,通过这样的方法来实现对数据的质量控制。
CN201610949916.0A 2016-10-26 2016-10-26 一种改进随机森林气温数据质量控制方法 Active CN106503459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610949916.0A CN106503459B (zh) 2016-10-26 2016-10-26 一种改进随机森林气温数据质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610949916.0A CN106503459B (zh) 2016-10-26 2016-10-26 一种改进随机森林气温数据质量控制方法

Publications (2)

Publication Number Publication Date
CN106503459A true CN106503459A (zh) 2017-03-15
CN106503459B CN106503459B (zh) 2019-04-23

Family

ID=58322170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610949916.0A Active CN106503459B (zh) 2016-10-26 2016-10-26 一种改进随机森林气温数据质量控制方法

Country Status (1)

Country Link
CN (1) CN106503459B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679660A (zh) * 2017-09-30 2018-02-09 山东建筑大学 基于支持向量机的逐时建筑能耗预测方法
CN108446433A (zh) * 2018-02-07 2018-08-24 广东省生态环境技术研究所 一种土壤酸化驱动力的识别方法、系统和装置
CN108734197A (zh) * 2018-04-17 2018-11-02 东北大学 一种湿法冶金浓密洗涤过程的故障监测与诊断方法
CN108804850A (zh) * 2018-06-27 2018-11-13 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109145965A (zh) * 2018-08-02 2019-01-04 深圳辉煌耀强科技有限公司 基于随机森林分类模型的细胞识别方法和装置
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
CN109472105A (zh) * 2018-11-22 2019-03-15 上海华力微电子有限公司 半导体产品良率上限分析方法
CN109597401A (zh) * 2018-12-06 2019-04-09 华中科技大学 一种基于数据驱动的设备故障诊断方法
CN110596492A (zh) * 2019-09-17 2019-12-20 昆明理工大学 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法
CN110765420A (zh) * 2019-10-18 2020-02-07 江苏省气象信息中心 一种基于pso-fi的地面自动气象站气温观测资料质量控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102778702A (zh) * 2012-06-21 2012-11-14 重庆市电力公司 一种用于变电站的气象预报方法及系统
CN103278867A (zh) * 2013-05-03 2013-09-04 南京信息工程大学 一种基于经验模态分解的自动气象站数据质量控制方法
CN105303262A (zh) * 2015-11-12 2016-02-03 河海大学 一种基于核主成分分析和随机森林的短期负荷预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102778702A (zh) * 2012-06-21 2012-11-14 重庆市电力公司 一种用于变电站的气象预报方法及系统
CN103278867A (zh) * 2013-05-03 2013-09-04 南京信息工程大学 一种基于经验模态分解的自动气象站数据质量控制方法
CN105303262A (zh) * 2015-11-12 2016-02-03 河海大学 一种基于核主成分分析和随机森林的短期负荷预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XU C D.ET: "Estimation of uncertainty in temperature observations made at meteorological stations using a probabilistic spatiotemporal approach", 《JOURNAL OF APPLIED METEOROLOGY AND CLIMATOLOGY》 *
周建华: "地面气象观测资料的质量控制方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
沈军: "气象自动观测站数据处理方法研究", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679660A (zh) * 2017-09-30 2018-02-09 山东建筑大学 基于支持向量机的逐时建筑能耗预测方法
CN108446433A (zh) * 2018-02-07 2018-08-24 广东省生态环境技术研究所 一种土壤酸化驱动力的识别方法、系统和装置
CN108734197A (zh) * 2018-04-17 2018-11-02 东北大学 一种湿法冶金浓密洗涤过程的故障监测与诊断方法
CN108804850B (zh) * 2018-06-27 2020-09-11 大连理工大学 基于空间重构的航空发动机过渡态加速过程参数预测方法
CN108804850A (zh) * 2018-06-27 2018-11-13 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109145965A (zh) * 2018-08-02 2019-01-04 深圳辉煌耀强科技有限公司 基于随机森林分类模型的细胞识别方法和装置
CN109241070A (zh) * 2018-08-22 2019-01-18 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
CN109472105A (zh) * 2018-11-22 2019-03-15 上海华力微电子有限公司 半导体产品良率上限分析方法
CN109472105B (zh) * 2018-11-22 2023-09-19 上海华力微电子有限公司 半导体产品良率上限分析方法
CN109597401B (zh) * 2018-12-06 2020-09-08 华中科技大学 一种基于数据驱动的设备故障诊断方法
CN109597401A (zh) * 2018-12-06 2019-04-09 华中科技大学 一种基于数据驱动的设备故障诊断方法
CN110596492A (zh) * 2019-09-17 2019-12-20 昆明理工大学 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法
CN110765420A (zh) * 2019-10-18 2020-02-07 江苏省气象信息中心 一种基于pso-fi的地面自动气象站气温观测资料质量控制方法

Also Published As

Publication number Publication date
CN106503459B (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN106503459A (zh) 一种改进随机森林气温数据质量控制方法
CN106503458B (zh) 一种地面气温数据质量控制方法
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
WO2018045642A1 (zh) 一种母线负荷预测方法
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN103812872B (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN103617435B (zh) 一种主动学习图像分类方法和系统
CN110087207A (zh) 无线传感器网络缺失数据重建方法
CN110020712B (zh) 一种基于聚类的优化粒子群bp网络预测方法和系统
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN105471670B (zh) 流量数据分类方法及装置
CN102867115A (zh) 一种基于模糊c均值聚类的农田划分方法
CN104112062B (zh) 基于插值方法的风资源分布的获取方法
CN108197837A (zh) 基于KMeans聚类的光伏发电预测方法
CN106612511A (zh) 一种基于支持向量机的无线网络吞吐量的评估方法及装置
CN106940718A (zh) 一种获取候鸟迁徙路径描述的方法、装置及服务器
CN105049286A (zh) 基于层次聚类的云平台测速数据判定方法
CN110443303B (zh) 基于图像分割和分类的煤岩显微组分智能识别方法
CN106375156A (zh) 电力网络流量异常检测方法及装置
CN115017943A (zh) 轴承故障诊断模型训练方法及训练装置
CN103902798A (zh) 数据预处理方法
CN114638465A (zh) 一种基于二次评分的采集终端网络信号质量评价方法
CN114021338A (zh) 一种基于多源数据融合的可靠性评估方法
CN117934950A (zh) 一种基于数据分析的城乡生态规划方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210927

Address after: 210000 room 401-74, floor 4, building D4, No. 15, Wanshou Road, Jiangbei new area, Nanjing, Jiangsu

Patentee after: Nanjing Zhongke Huaxing emergency Technology Research Institute Co.,Ltd.

Address before: 210044 No. 219 Ningliu Road, Nanjing City, Jiangsu Province

Patentee before: Nanjing University of Information Science and Technology

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An Improved Random Forest Air Temperature Data Quality Control Method

Effective date of registration: 20220811

Granted publication date: 20190423

Pledgee: China Construction Bank Corporation Nanjing Jiangbei new area branch

Pledgor: Nanjing Zhongke Huaxing emergency Technology Research Institute Co.,Ltd.

Registration number: Y2022320000458

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230830

Granted publication date: 20190423

Pledgee: China Construction Bank Corporation Nanjing Jiangbei new area branch

Pledgor: Nanjing Zhongke Huaxing emergency Technology Research Institute Co.,Ltd.

Registration number: Y2022320000458

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An Improved Quality Control Method for Random Forest Temperature Data

Effective date of registration: 20230901

Granted publication date: 20190423

Pledgee: China Construction Bank Corporation Nanjing Jiangbei new area branch

Pledgor: Nanjing Zhongke Huaxing emergency Technology Research Institute Co.,Ltd.

Registration number: Y2023980054864

PE01 Entry into force of the registration of the contract for pledge of patent right