CN109241070B - 一种基于大数据的气象数据不一致性的时间维度统一方法 - Google Patents

一种基于大数据的气象数据不一致性的时间维度统一方法 Download PDF

Info

Publication number
CN109241070B
CN109241070B CN201810965700.2A CN201810965700A CN109241070B CN 109241070 B CN109241070 B CN 109241070B CN 201810965700 A CN201810965700 A CN 201810965700A CN 109241070 B CN109241070 B CN 109241070B
Authority
CN
China
Prior art keywords
data
meteorological
attribute
sample set
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810965700.2A
Other languages
English (en)
Other versions
CN109241070A (zh
Inventor
温娜
郝永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201810965700.2A priority Critical patent/CN109241070B/zh
Publication of CN109241070A publication Critical patent/CN109241070A/zh
Application granted granted Critical
Publication of CN109241070B publication Critical patent/CN109241070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于大数据的气象数据不一致性的时间维度统一方法,包括以下步骤:步骤1:对收集的数据,先求出每个气象属性的均值及方差,对每一个气象属性进行标准化;步骤2:对标准化后的样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成样本集;步骤3:对每一个样本集,按照一致性气象属性,进行分类,得到若干分类器,生成随机森林;步骤4:根据生成的随机森林,按照一致性气象属性,逐步分类,根据分类器,预测不一致数据;步骤5:根据预测的数据与不一致数据,计算标准化距离最小的记录值,为最后选择的值。本发明主要从时间维度,解决气象序列数据不一致性问题。

Description

一种基于大数据的气象数据不一致性的时间维度统一方法
技术领域
本发明涉及气象序列数据领域。主要针对气象数据不一致性问题,提出时间维度解决方法。
背景技术
气象序列数据不一致性问题主要原因有两个:由于管理等问题导致的不同数据在各个不同数据库之间的数据不一致性问题;由于观测站点变迁及设备更新导致的数据集在时间序列上存在阶段性系统偏差问题。数据是信息的载体之一。做为社会公益部门的、以信息服务为基本业务特征的气象部门,从诞生之日起便与数据有着生死与共的紧密关系,没有数据,气象工作的一切便无从谈起。气象部门的各种业务人员,每日在各自的岗位上的所说和所做,无不与数据相关。
气象部门离不开数据,数据是维系气象部门生命的血液。气象数据尤其是气象序列数据不一致性问题,是进行气象计算,气象业务的基础。
温华洋从数据“热备份”角度提出了基于空间一致性的主备法,在此基础上进一步从统计学基本原理以及保证数据连续角度提出了基于空间一致性的差值订正合成法两种数据处理算法(温华洋,徐光清,华连生,等.“双套站”数据处理方法探索[C]//苏皖两省大气探测、环境遥感与电子技术学术交流研讨会.2011.)。
随着大数据时代的来临,基于大数据的分析方法,为解决气象序列数据不一致性问题提供了可能。
发明内容
针对上述技术问题,本发明提供一种基于大数据的气象数据不一致性的时间维度统一方法,为解决气象序列数据不一致性问题提供了可能。
为了实现上述技术目的,本发明采用如下的技术方案:
一种基于大数据的气象数据不一致性的时间维度统一方法,包括以下步骤:
步骤1:选择气象序列数据并对数据进行标准化处理,生成标准化样本;
步骤2:对步骤1得到的标准化样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成气象序列数据自动样本集;
步骤3:根据步骤2所得到的气象序列数据自动样本集,针对每一个样本集,按照一致性气象属性进行分类,生成若干树分类器,建立随机森林;
步骤4:建成随机森林后,对每一组样本集的随机森林数据,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果;
步骤5:根据步骤4的预测结果与冲突值之间的加权距离,选择最小的距离值作为最终选择的值。
所述步骤1中,气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。
所述步骤1中,对收集的数据,先求出每个气象属性的均值及方差,然后采用如下公式对数据进行标准化处理:
Figure GDA0003726548490000021
其中,m表示第m个属性,n表示第n个气象站点,t表示第t个时刻,
Figure GDA0003726548490000022
为属性数据,
Figure GDA0003726548490000023
为属性数据的平均值,
Figure GDA0003726548490000024
为属性数据方差。
所述步骤1中气象数据标准化方法,使所有属性数据的值在0-1范围之内。
所述步骤2中,生成气象序列数据自动样本集是从原始的样本容量为M的训练样本集合中随机抽取N个样本,一个样本为步骤1中的一条气象数据记录,生成新的训练样本集,抽样方法为有放回抽样。
所述步骤3是针对步骤2得到的每一个样本集,根据站点及气象属性不同采用不同的分类方法,建立不同的树分类器;其采用每次随机若干站点数,随机若干个气象属性的方法,对步骤2中生成的样本集进行分类,形成多个分类器。
步骤5中,根据预测的数据与不一致数据,按照以下公式计算标准化距离最小的记录值,为最后选择的值:
Figure GDA0003726548490000025
其中,i表示站点,m标志第m个属性,Bi m表示对应属性数据的值,Ai表示对站点i的某一气象属性预测,N代表总的站点数量。
本发明的有益效果是:
第一、数据标准化方法,使气象属性具有统一的范围,有利于进一步利用;
第二、将站点的一致性数据与冲突数据结合起来,用来预测气象序列数据;
第三、统一的气象数据,为气象模式的利用提供了数据基础;
第四、解决冲突的方法也可用来对气象属性预测(补气象属性数据),对预测提供了一种新的方法。
附图说明
图1表示基于时间的站点选择方法坐标图;
其中,x轴表示地理空间,y轴表示时间;
图2为本发明生成气象序列数据自动样本集的流程图;
图3为生成气象站点气象序列数据随机森林的逻辑图;
图4为按一致气象属性根据随机森林进行分类预测的流程图;
图5为本发明具体实施例的流程图;
图6为本发明方法的流程图。
具体实施方式
时间分类器是采用冲突站点部分一致性数据(图1中黑色点的气象数据),及附近站点一致性数据(图1中T-1,T,T+1时刻的矩形内数据),进行预测,其核心方法是随机森林算法:
1.选择气象序列数据并对数据进行标准化处理
选择矩形内所有站点不同时刻的数据作为分类的基础数据,其选择原则是尽量多的数据一致性站点(一个不一致性数据站点,其他都是一致性数据站点),并将一个时间所有备选点的数据看作一条记录,对气象属性数据进行标准化处理。
在对数据处理前,需要对气象站站点数据进行标准化。气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等。假设t时总共有N条气象数据记录Rsett,每条记录Rnt有M个属性
Figure GDA0003726548490000031
则:
Rsett={Rn,t|(1≤n≤N)} (1)
Figure GDA0003726548490000032
首先,我们对属性数据
Figure GDA0003726548490000033
进行标准化为
Figure GDA0003726548490000034
假设其平均值为
Figure GDA0003726548490000035
方差为
Figure GDA0003726548490000036
Figure GDA0003726548490000041
对Rn,t采用以上方法实现标准化后,记作Rn,t′。这里,尽量选择一致性数据,但是极少量的不一致性数据是允许的,并不影响相关结果。
2.生成气象序列数据自动样本集
将每个时刻附近站点的数据看作一条记录(即一个时间所有备选点的数据看作一条记录:):
NRn={Rn,t′|1≤t≤T,1≤n≤N}
其中,Rn,t′代表站点n的所有时刻的标准化后的记录,t代表具体记录时间,T表示总的记录时间序列数量;N代表总的记录数。
其采用自助法(bootstrap)生成,自助法是从原始的样本容量为N的训练样本集合NRn中随机抽取L(L<N)个样本(一个样本为步骤一中的一条记录)生成新的训练样本集,抽样方法为有放回抽样。按照这种方法,重复生成多个样本集。总的样本集数量为I。其具体过程如图1所示;图中分别描述了T-1,T,T+1时刻不同的气象要素采样点。灰色采样点表示已经获得正确数据(数据一致)的采样点,黑色采样点表示需要预测的数据点。其中方框内的采样点,表示被选择用来预测的采样点(气象站点)。
3.设计气象序列数据树分类器
针对步骤2中的每一个样本集,采用不同的分类方法(根据站点及气象属性),建立不同的树分类器。其采用每次随机若干(模拟中采用一半站点数)站点数,随机若干个(不选地理位置信息情况下,总的属性数量的一半)气象属性(进行分类)的方法,对步骤中生成的样本集进行分类,形成多个分类器,完成分类器的设计工作。其具体过程如图2所示:
生长单棵分类树的原则是递归分区,我们采用二叉树的方法建立,即树中每个节点最多有两个分支节点。分类树按照不纯度最小的原则,首先找到一个特征(根据气象属性分类:风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等)把全部训练样本分成两组(可以采用标准化后气象数据0.5划分为两个分支),然后按照同样的规则对节点处的样本进行再次分类(根据上次没有采用的气象属性)。
在二叉树中,根节点包含全部训练数据,按照分支生成规则分裂为左孩子节点和右孩子节点,它们分别包含训练数据的一个子集,孩子节点可以继续分裂。每次分裂根据不同的气象属性。这样依次进行,直到不能分裂生长为止。
图3给出了随机森林的生成过程。其中noden,na分别为当前选择作为分支的站点ID,及当前选择的气象属性ID。
NDN,NAN分别表示总的站点数量,及总的气象属性数量。
按照图3给出的方式,生成不同的数据集,建立随机森林。
图3中的建立随机森林的过程,总是将冲突数据的属性作为最后的分类,这样采用所建的随机森林进行预测。
4.建成随机森林后,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果。
图4是按一致的气象属性预测非一致气象属性方法。其中ne,NE分别表示当前选择的气象属性ID及总共的气象属性数量。图4描述了具体的预测过程:按照每一个一致性数据,逐步分类,直到没有一致性数据。
5.通过加权计算预测结果与记录结果(集,这里包含若干组有冲突的记录)的标准化后距离,如果预测多个气象属性,则选择最小的为最终结果。
假设预测结果为(Ai表示对站点i的某一气象属性预测,N代表总的站点数量):
A={A1,A2,..,Ai,…AN}
冲突的值有(
Figure GDA0003726548490000051
表示一组冲突的预测值,N代表总的节点数,M代表总的预测结果数量),那么预测值矩阵为:
Figure GDA0003726548490000052
Figure GDA0003726548490000053
B(M)与A的距离为
Figure GDA0003726548490000054
取上面最小的值为最终预测方案。
如图5和图6所示,本发明具体实施流程为:
1.对收集的数据,先求出每个气象属性的均值及方差,采用公式(3),对每一个气象属性进行标准化;
2.对标准化后的样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成样本集;
3.对每一个样本集,按照一致性气象属性,进行分类,得到若干分类器,生成随机森林;
4.根据生成的随机森林,按照一致性气象属性,逐步分类,根据分类器,预测不一致数据;
5.根据预测的数据与不一致数据,按照公式(4),计算标准化距离最小的记录值,为最后选择的值。

Claims (5)

1.一种基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,包括以下步骤:
步骤1:选择气象序列数据并对数据进行标准化处理,生成标准化样本;
步骤2:对步骤1得到的标准化样本,选择若干个站点数据,同一时间的数据作为一条记录,按照可重复抽样原则,生成气象序列数据自动样本集;
步骤3:根据步骤2所得到的气象序列数据自动样本集,针对每一个样本集,按照一致性气象属性进行分类,生成若干树分类器,建立随机森林;
步骤4:建成随机森林后,对每一组样本集的随机森林数据,按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测,得到预测结果;
步骤5:根据步骤4的预测结果与冲突值之间的加权距离,选择最小的距离值作为最终选择的值;
所述步骤1中,对收集的数据,先求出每个气象属性的均值及方差,然后采用如下公式对数据进行标准化处理:
Figure DEST_PATH_IMAGE001
其中,m表示第m个属性,n表示第n个气象站点,t表示第t个时刻,
Figure DEST_PATH_IMAGE002
为属性数据,
Figure 545407DEST_PATH_IMAGE002
为属性数据的平均值,
Figure DEST_PATH_IMAGE003
为属性数据方差;
步骤5中,根据预测的数据与不一致数据,按照以下公式计算标准化距离最小的记录值,为最后选择的值,
Figure DEST_PATH_IMAGE004
,其中,
i表示站点,m表示第m个属性,B i m 表示对应属性数据的值,
Figure DEST_PATH_IMAGE005
表示对站点i的某一气象属性预测,N代表总的站点数量。
2.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤1中,气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。
3.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤1中气象数据标准化方法,使所有属性数据的值在0-1范围之内。
4.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤2中,生成气象序列数据自动样本集是从原始的样本容量为M的训练样本集合中随机抽取C个样本,一个样本为步骤1中的一条气象数据记录,生成新的训练样本集,抽样方法为有放回抽样。
5.根据权利要求1所述的基于大数据的气象数据不一致性的时间维度统一方法,其特征在于,所述步骤3是针对步骤2得到的每一个样本集,根据站点及气象属性不同采用不同的分类方法,建立不同的树分类器;其采用每次随机若干站点数,随机若干个气象属性的方法,对步骤2中生成的样本集进行分类,形成多个分类器。
CN201810965700.2A 2018-08-22 2018-08-22 一种基于大数据的气象数据不一致性的时间维度统一方法 Active CN109241070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810965700.2A CN109241070B (zh) 2018-08-22 2018-08-22 一种基于大数据的气象数据不一致性的时间维度统一方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965700.2A CN109241070B (zh) 2018-08-22 2018-08-22 一种基于大数据的气象数据不一致性的时间维度统一方法

Publications (2)

Publication Number Publication Date
CN109241070A CN109241070A (zh) 2019-01-18
CN109241070B true CN109241070B (zh) 2022-08-19

Family

ID=65068108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965700.2A Active CN109241070B (zh) 2018-08-22 2018-08-22 一种基于大数据的气象数据不一致性的时间维度统一方法

Country Status (1)

Country Link
CN (1) CN109241070B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766071B (zh) * 2019-10-21 2023-04-28 北京工业大学 一种基于森林自编码器的脑网络数据增强方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3004949A4 (en) * 2013-06-06 2016-12-28 Massachusetts Inst Technology GRAPHICAL DISPLAY OF RADAR AND RADARAL METEOROLOGICAL DATA
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN106503459B (zh) * 2016-10-26 2019-04-23 南京信息工程大学 一种改进随机森林气温数据质量控制方法
CN106503458B (zh) * 2016-10-26 2019-04-16 南京信息工程大学 一种地面气温数据质量控制方法
CN108022001B (zh) * 2017-09-20 2021-10-19 河海大学 基于pca和分位数回归森林的短期负荷概率密度预测方法
CN108154271A (zh) * 2017-12-28 2018-06-12 南京信息工程大学 一种基于空间相关性和曲面拟合的地面气温质量控制方法

Also Published As

Publication number Publication date
CN109241070A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
WO2023087558A1 (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN110245709B (zh) 基于深度学习和自注意力的3d点云数据语义分割方法
Choi et al. Development of heavy rain damage prediction model using machine learning based on big data
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
WO2023168781A1 (zh) 一种基于时空交互关系的土壤镉风险预测方法
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
Biard et al. Automated detection of weather fronts using a deep learning neural network
CN112487724B (zh) 基于分区和改进cnn-ca模型的城市动态扩张模拟方法
Vuyyuru et al. A novel weather prediction model using a hybrid mechanism based on MLP and VAE with fire-fly optimization algorithm
CN116108984A (zh) 基于流量-poi因果关系推理的城市流量预测方法
CN112180471A (zh) 天气预报方法、装置、设备及存储介质
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN117233869B (zh) 一种基于GRU-BiTCN的站点短期风速预测方法
CN109241070B (zh) 一种基于大数据的气象数据不一致性的时间维度统一方法
CN112200262B (zh) 支持多任务和跨任务的小样本分类训练方法及装置
CN113240219A (zh) 一种土地利用模拟及预测方法
CN117272999A (zh) 基于类增量学习的模型训练方法及装置、设备、存储介质
CN116579468A (zh) 基于云系记忆的台风生成预测方法、装置、设备及介质
Zhang Remote sensing data processing of urban land using based on artificial neural network
CN112465189A (zh) 一种基于时空关联性分析的法院收结案数量预测方法
Yang Intelligent informatization early warning analysis of agricultural economy based on support vector sequential regression model
Pos et al. Estimating and interpreting migration of Amazonian forests using spatially implicit and semi‐explicit neutral models
El Mhouti et al. A Machine Learning-Based Approach for Meteorological Big Data Analysis to Improve Weather Forecast
CN117114004B (zh) 一种基于门控纠偏的少样本两阶段命名实体识别方法
CN118072976B (zh) 基于数据分析的儿童呼吸道疾病预测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210032 No. 219 Ning six road, Jiangbei new district, Nanjing, Jiangsu

Applicant after: Nanjing University of Information Science and Technology

Address before: 211500 Yuting Square, 59 Wangqiao Road, Liuhe District, Nanjing City, Jiangsu Province

Applicant before: Nanjing University of Information Science and Technology

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant