CN106503458B - 一种地面气温数据质量控制方法 - Google Patents

一种地面气温数据质量控制方法 Download PDF

Info

Publication number
CN106503458B
CN106503458B CN201610949430.7A CN201610949430A CN106503458B CN 106503458 B CN106503458 B CN 106503458B CN 201610949430 A CN201610949430 A CN 201610949430A CN 106503458 B CN106503458 B CN 106503458B
Authority
CN
China
Prior art keywords
data
station
quality control
error
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610949430.7A
Other languages
English (en)
Other versions
CN106503458A (zh
Inventor
叶小岭
杨星
熊雄
姚润进
沈云培
杨帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201610949430.7A priority Critical patent/CN106503458B/zh
Publication of CN106503458A publication Critical patent/CN106503458A/zh
Application granted granted Critical
Publication of CN106503458B publication Critical patent/CN106503458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种地面气温数据质量控制方法,将经过遗传算法(GA)优化后的随机森林算法用于气象观测站进行气象要素质量控制。该方法首先对一定范围内的地面气象观测数据进行采集,然后对采集的数据做基本质量控制后,再依据随机森林模型下变量重要性使用遗传算法寻找相关性较高的邻近站点,使用改进随机森林方法按时间和空间排序对数据进行训练,得到一个基于改进随机森林的质量控制模型,并利用测试集进行回归预测,最后与目标站实际观测数据进行对比,观察模型识别观测数据中错误数据的能力。该方法有效的利用了我国多年积累的宝贵气象数据资料,在质量控制方面比传统方法更加高效、准确度高、适应性强,提高了气象观测站气象数据的质量。

Description

一种地面气温数据质量控制方法
技术领域
本发明涉及地面观测站采集数据的质量控制领域,特别是针对温度数据的质量控制方法。
背景技术
中国自1951年以来就有近1800个气象站,气象数据的积累丰富,然而这些气象数据中可能存在一些观测、录入和传输等错误,这些错误降低了气象站观测数据的质量,对气象的研究产生了阻力,因此对气象数据的质量控制成为了气象数据应用中不可或缺的环节。
地面气象站观测数据质量控制一般分为两类,一类是单站质量控制方法,主要包括极值检查、气候极值检查、内部一致性检查、时间一致性检查;另一类是多站联网质量控制方法,目前国内外已经提出了很多质量控制的方法,例如数值预报模式插值方法、反距离加权发和空间回归检测方法等等。
发明内容
本发明的目的在于克服以上技术不足之处,针对多站质量控制的不足提出一种基地面气温数据质量控制方法,解决了目前多站联网质量控制方法不稳定、准确度不高的问题,具体由以下的方案实现:
所述地面气象观测站观测的气温数据质量控制方法,包括以下步骤:
步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;
步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;
步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1 的比例分为训练集和测试集;
步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有 37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,随机对袋外数据所有样本特征加入噪声干扰,在此计算袋外误差得OOBerror2,则某特征m1的重要性为k为树个数,利用遗传算法寻找重要性较高的特征,即邻近站点,选择重要性较高的站点建立随机森林质量控制模型;
步骤5.将测试集中的邻近站点数据作为样本集,利用步骤4建立的随机森林质量控制模型进行回归预测,得到目标站的预测值;
步骤6.将预测值与实际观测值作比较进行检错分析,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。
其中,步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。
其中,步骤4中的遗传算法寻优过程为pc=f(xi)/∑f(xi),其中pc是某台站被选择的概率,xi为第i个台站,f(xi)为第i个台站的适应度函数值,即变量重要性值,∑f(xi)为所有台站适应度函数值之和。
其中,步骤6中所述检错方法公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数据记为存疑数据,通过这样的方法来实现对数据的质量控制。
有益效果
本发明的一种地面气温数据质量控制方法,通过周围邻近站点的气温观测数据,利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型,提出了一种新的多站联网质量控制方法,模型搭建速度快,泛化能力强,能够有效的提高地面观测数据的准确性。
附图说明
图1是本发明方法的流程图。
图2是本发明方法2005年重要性与台站排序图。
图3是本发明方法与反距离加权和空间回归检验方法的MAE、RMSE效果对比图。
图4是本发明方法与反距离加权和空间回归检验方法月02:00时均温实际观测值与预测值对比图。
具体实施方式
下面结合附图就实施例对本发明进行进一步说明。
本实施例的地面气温数据质量控制方法,如图1所示将福建站及周围的71个站点2005年到2014年逐日02:00时气温数据进行实施例分析,进一步说明本发明:
步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间,本实施例中T=3654为样本数;
步骤2.采集采样时间T内的71个邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数,在本实施例中n=71;
步骤3.对采集到的数据X0(t)和Xi(t)进行基本质量控制,得到新的数据集x0(t)和xi(t),取样本中1-3289 行的数据作为训练集,3290-3654行的数据作为测试集;
步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,样本数足够大时约有 37%的数据没有抽取到,称为袋外数据(OOB),利用袋外误差(OOBerror)测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,随机对袋外数据所有样本特征加入噪声干扰,在此计算袋外误差得OOBerror2,则某特征m1的重要性为k为树个数,本实施例中为500,利用遗传算法寻找重要性较高的特征,即邻近站点,选择重要性较高的站点建立随机森林质量控制模型,将2005-2013年每年数据进行建模得到密云站邻近站点每年重要性数据,综合比较每年数据得出结果,图2 为2005年台站重要性情况,一共运行了9年重要性数据进行GA优化,本实施例中选取重要性前20的站点进行随机森林质量控制模型建模;
步骤5.将测试集中的邻近站点数据作为样本集,利用步骤4建立的随机森林质量控制模型进行回归预测,得到目标站的预测值;
步骤6.将预测值与实际观测值作比较进行检错分析,通过均方根误差(RMSE)和平均绝对误差(MAE) 比较随机森林质量控制效果,在实施例中MAE为0.341,RMSE为0.882。
为了分析本方法的优点,将同样的数据应用与反距离加权方法和空间回归检验方法中,并进行对比,如表1所示,本方法得到的平均绝对误差(MAE)和均方根误差(RMSE)明显要优于另外两种方法。
表1本发明方法综合9年台站重要性数据GA后得到的前20个重要性较高的台站
本实施例通过周围邻近站点气温观测数据,利用优化后的随机森林方法构建基于邻近站点气温观测数据的气温数据质量控制模型,提出了一种新的多站联网质量控制方法,模型搭建速度快,泛化能力强,能够有效的提高地面观测数据的准确性,选择重要性较高的20个站点也减少了以后进行气象数据质量控制的时间。通过图3 与图4的对比分析验证本发明方法质量控制效果明显。

Claims (4)

1.一种地面气温数据质量控制方法,其特征在于,包括以下步骤:
步骤1.采集采样时间T内的目标地面气象观测站温度数据X0(t),t=1,2,3,…,T,其中t为采样时间;
步骤2.采集采样时间T内的邻近地面气象观测站温度数据Xi(t),i=1,2,3,…,n,其中n为邻近站的个数;
步骤3.对采集到的数据进行基本质量控制,得到新的数据集x0(t)和xi(t),将样本按时间序列以9:1的比例分为训练集和测试集;
步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,利用袋外误差测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOBerror=b/a,随机对袋外数据所有样本特征加入噪声干扰,在此计算袋外误差得OOBerror2,则某特征m1的重要性为k为树个数,利用遗传算法寻找重要性较高的特征,即邻近站点,选择重要性较高的站点建立随机森林质量控制模型;
步骤5.将测试集中的邻近站点数据作为样本集,利用步骤4建立的随机森林质量控制模型进行回归预测,得到目标站的预测值;
步骤6.将预测值与实际观测值作比较进行检错分析,通过均方根误差和平均绝对误差评价模型,其中yobs为目标站实际观测值,yest是模型预测值。
2.根据权利要求1所述的地面气温数据质量控制方法,其特征在于:步骤3中所述基本质量控制方法包括格式检查、极值检查、气候极值检查、内部一致性检查、时间一致性检查、空间一致性检查。
3.根据权利要求1所述的地面气温数据质量控制方法,其特征在于,步骤4中的遗传算法寻优过程为pc=f(xi)/∑f(xi),其中pc是某台站被选择的概率,xi为第i个台站,f(xi)为第i 个台站的适应度函数值,即变量重要性值,∑f(xi)为所有台站适应度函数值之和。
4.根据权利要求1所述的地面气温数据质量控制方法,其特征在于,步骤6中所述检错公式为:|yobs-yest|≤f·δ,f是质量控制参数设置为3,δ是目标站观测值与预测值之间的标准误差,如果满足公式的条件,就判断该数值正确,如果不满足公式的条件,则将该数值 记为存疑数据,通过这样的方法来实现对数据的质量控制。
CN201610949430.7A 2016-10-26 2016-10-26 一种地面气温数据质量控制方法 Active CN106503458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610949430.7A CN106503458B (zh) 2016-10-26 2016-10-26 一种地面气温数据质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610949430.7A CN106503458B (zh) 2016-10-26 2016-10-26 一种地面气温数据质量控制方法

Publications (2)

Publication Number Publication Date
CN106503458A CN106503458A (zh) 2017-03-15
CN106503458B true CN106503458B (zh) 2019-04-16

Family

ID=58323057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610949430.7A Active CN106503458B (zh) 2016-10-26 2016-10-26 一种地面气温数据质量控制方法

Country Status (1)

Country Link
CN (1) CN106503458B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247873B (zh) * 2017-03-29 2020-04-14 电子科技大学 一种差异甲基化位点识别方法
CN107679660A (zh) * 2017-09-30 2018-02-09 山东建筑大学 基于支持向量机的逐时建筑能耗预测方法
CN107748736B (zh) * 2017-10-13 2021-11-26 河海大学 一种基于随机森林的多因子遥感地表温度空间降尺度方法
CN108154271A (zh) * 2017-12-28 2018-06-12 南京信息工程大学 一种基于空间相关性和曲面拟合的地面气温质量控制方法
CN108537417B (zh) * 2018-03-21 2021-11-30 南京信息工程大学 一种基于协同克里金法的地面气温质量控制方法
CN108549117A (zh) * 2018-03-29 2018-09-18 南京信息工程大学 一种基于eemd-ces的地面气温观测资料质量控制方法
CN108614803A (zh) * 2018-04-16 2018-10-02 深圳市赑玄阁科技有限公司 一种气象数据质量控制方法及系统
CN109241070B (zh) * 2018-08-22 2022-08-19 南京信息工程大学 一种基于大数据的气象数据不一致性的时间维度统一方法
CN110502526B (zh) * 2019-08-26 2023-05-09 安徽省气象信息中心 一种适用于结冰现象的资料序列插补的方法
CN110532674B (zh) * 2019-08-27 2022-08-12 东北电力大学 一种燃煤电站锅炉炉膛温度测量方法
CN112446397B (zh) * 2019-09-02 2024-07-16 中国林业科学研究院资源信息研究所 基于遥感和随机森林的产草量估算方法、装置及存储介质
CN111860988A (zh) * 2020-07-08 2020-10-30 南京信息工程大学 基于遗传算法和移动曲面拟合的地面气温质量控制方法
CN117851736B (zh) * 2024-03-07 2024-05-14 南京信息工程大学 一种基于模糊自适应寻优融合的气象要素插值方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103278867B (zh) * 2013-05-03 2015-02-04 南京信息工程大学 一种基于经验模态分解的自动气象站数据去噪方法
CN105809321A (zh) * 2016-01-26 2016-07-27 南京信息工程大学 地面气象观测站采集气温数据的质量控制方法

Also Published As

Publication number Publication date
CN106503458A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106503458B (zh) 一种地面气温数据质量控制方法
CN106503459B (zh) 一种改进随机森林气温数据质量控制方法
CN110032975B (zh) 一种地震震相的拾取方法
CN110087207B (zh) 无线传感器网络缺失数据重建方法
CN106503742B (zh) 一种可见光图像绝缘子识别方法
CN110674604A (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN103916820B (zh) 基于接入点稳定度的无线室内定位方法
CN109858516A (zh) 一种基于迁移学习的火灾和烟雾预测方法、系统和介质
CN109756842B (zh) 基于注意力机制的无线室内定位方法及系统
CN107180245A (zh) 一种室内外场景识别方法及装置
CN106612511B (zh) 一种基于支持向量机的无线网络吞吐量的评估方法及装置
CN108363876B (zh) 一种考虑关键故障的测试优化选择方法
CN113688830B (zh) 基于中心点回归的深度学习目标检测方法
CN106133625A (zh) 占用检测
CN114584230B (zh) 一种基于对抗网络与长短期记忆网络的预测信道建模方法
CN106935038B (zh) 一种停车检测系统及检测方法
CN105652235A (zh) 基于线性回归算法的wlan室内定位多用户rss融合方法
CN108107086A (zh) 一种基于阵列气体传感器的气体检测方法及气体传感器
CN112816881A (zh) 电池压差异常检测方法、装置及计算机存储介质
CN117789038A (zh) 一种基于机器学习的数据处理与识别模型的训练方法
CN116757971B (zh) 一种基于周围光的图像自动调整方法
CN105743756A (zh) WiFi系统中基于adaboost算法的帧检测方法
CN116664989B (zh) 基于环境要素智能识别监测系统的数据分析方法及系统
CN111949937A (zh) 一种基于链式方程的分布式光伏数据多重插补方法
CN116972913A (zh) 一种冷链设备运行状态在线监测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 420, block C, Kechuang headquarters building, 320 pubin Road, Jiangpu street, Pukou District, Nanjing City, Jiangsu Province, 211800

Patentee after: Nanjing University of Information Science and Technology

Address before: 210044 No. 219, Ning six road, Nanjing, Jiangsu

Patentee before: Nanjing University of Information Science and Technology

CP02 Change in the address of a patent holder
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170315

Assignee: Nanjing Yucheng Safety and Health Consulting Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023320000241

Denomination of invention: A Quality Control Method for Ground Temperature Data

Granted publication date: 20190416

License type: Common License

Record date: 20231121

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170315

Assignee: Fujian hefuyun Information Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051730

Denomination of invention: A Quality Control Method for Ground Temperature Data

Granted publication date: 20190416

License type: Common License

Record date: 20231212

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170315

Assignee: Nanjing Xinqihang Software Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051736

Denomination of invention: A Quality Control Method for Ground Temperature Data

Granted publication date: 20190416

License type: Common License

Record date: 20231213

Application publication date: 20170315

Assignee: Fujian Kailan Information Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051725

Denomination of invention: A Quality Control Method for Ground Temperature Data

Granted publication date: 20190416

License type: Common License

Record date: 20231213

EE01 Entry into force of recordation of patent licensing contract
CI03 Correction of invention patent

Correction item: Assignee

Correct: Nantong Yucheng Safety and Health Consulting Co., Ltd.

False: Nanjing Yucheng Safety and Health Consulting Co., Ltd.

Number: 49-02

Volume: 39

CI03 Correction of invention patent
EC01 Cancellation of recordation of patent licensing contract

Assignee: Nanjing Xinqihang Software Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051736

Date of cancellation: 20240507

Assignee: Fujian hefuyun Information Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051730

Date of cancellation: 20240507

Assignee: Fujian Kailan Information Technology Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980051725

Date of cancellation: 20240507

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Nantong Yucheng Safety and Health Consulting Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023320000241

Date of cancellation: 20240522