CN109241070B

CN109241070B - 一种基于大数据的气象数据不一致性的时间维度统一方法

Info

Publication number: CN109241070B
Application number: CN201810965700.2A
Authority: CN
Inventors: 温娜; 郝永生
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2022-08-19
Anticipated expiration: 2038-08-22
Also published as: CN109241070A

Abstract

本发明公开了基于大数据的气象数据不一致性的时间维度统一方法，包括以下步骤：步骤1：对收集的数据，先求出每个气象属性的均值及方差，对每一个气象属性进行标准化；步骤2：对标准化后的样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成样本集；步骤3：对每一个样本集，按照一致性气象属性，进行分类，得到若干分类器，生成随机森林；步骤4：根据生成的随机森林，按照一致性气象属性，逐步分类，根据分类器，预测不一致数据；步骤5：根据预测的数据与不一致数据，计算标准化距离最小的记录值，为最后选择的值。本发明主要从时间维度，解决气象序列数据不一致性问题。

Description

一种基于大数据的气象数据不一致性的时间维度统一方法

技术领域

本发明涉及气象序列数据领域。主要针对气象数据不一致性问题，提出时间维度解决方法。

背景技术

气象序列数据不一致性问题主要原因有两个：由于管理等问题导致的不同数据在各个不同数据库之间的数据不一致性问题；由于观测站点变迁及设备更新导致的数据集在时间序列上存在阶段性系统偏差问题。数据是信息的载体之一。做为社会公益部门的、以信息服务为基本业务特征的气象部门，从诞生之日起便与数据有着生死与共的紧密关系，没有数据，气象工作的一切便无从谈起。气象部门的各种业务人员，每日在各自的岗位上的所说和所做，无不与数据相关。

气象部门离不开数据，数据是维系气象部门生命的血液。气象数据尤其是气象序列数据不一致性问题，是进行气象计算，气象业务的基础。

温华洋从数据“热备份”角度提出了基于空间一致性的主备法，在此基础上进一步从统计学基本原理以及保证数据连续角度提出了基于空间一致性的差值订正合成法两种数据处理算法(温华洋,徐光清,华连生,等.“双套站”数据处理方法探索[C]//苏皖两省大气探测、环境遥感与电子技术学术交流研讨会.2011.)。

随着大数据时代的来临，基于大数据的分析方法，为解决气象序列数据不一致性问题提供了可能。

发明内容

针对上述技术问题，本发明提供一种基于大数据的气象数据不一致性的时间维度统一方法，为解决气象序列数据不一致性问题提供了可能。

为了实现上述技术目的，本发明采用如下的技术方案：

一种基于大数据的气象数据不一致性的时间维度统一方法，包括以下步骤：

步骤1：选择气象序列数据并对数据进行标准化处理，生成标准化样本；

步骤2：对步骤1得到的标准化样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成气象序列数据自动样本集；

步骤3：根据步骤2所得到的气象序列数据自动样本集，针对每一个样本集，按照一致性气象属性进行分类，生成若干树分类器，建立随机森林；

步骤4：建成随机森林后，对每一组样本集的随机森林数据，按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测，得到预测结果；

步骤5：根据步骤4的预测结果与冲突值之间的加权距离，选择最小的距离值作为最终选择的值。

所述步骤1中，气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线。

所述步骤1中，对收集的数据，先求出每个气象属性的均值及方差，然后采用如下公式对数据进行标准化处理：

其中，m表示第m个属性，n表示第n个气象站点，t表示第t个时刻，

为属性数据，

为属性数据的平均值，

为属性数据方差。

所述步骤1中气象数据标准化方法，使所有属性数据的值在0-1范围之内。

所述步骤2中，生成气象序列数据自动样本集是从原始的样本容量为M的训练样本集合中随机抽取N个样本，一个样本为步骤1中的一条气象数据记录，生成新的训练样本集，抽样方法为有放回抽样。

所述步骤3是针对步骤2得到的每一个样本集，根据站点及气象属性不同采用不同的分类方法，建立不同的树分类器；其采用每次随机若干站点数，随机若干个气象属性的方法，对步骤2中生成的样本集进行分类，形成多个分类器。

步骤5中，根据预测的数据与不一致数据，按照以下公式计算标准化距离最小的记录值，为最后选择的值:

其中，i表示站点，m标志第m个属性，B_i ^m表示对应属性数据的值，A_i表示对站点i的某一气象属性预测，N代表总的站点数量。

本发明的有益效果是：

第一、数据标准化方法，使气象属性具有统一的范围，有利于进一步利用；

第二、将站点的一致性数据与冲突数据结合起来，用来预测气象序列数据；

第三、统一的气象数据，为气象模式的利用提供了数据基础；

第四、解决冲突的方法也可用来对气象属性预测(补气象属性数据)，对预测提供了一种新的方法。

附图说明

图1表示基于时间的站点选择方法坐标图；

其中，x轴表示地理空间，y轴表示时间；

图2为本发明生成气象序列数据自动样本集的流程图；

图3为生成气象站点气象序列数据随机森林的逻辑图；

图4为按一致气象属性根据随机森林进行分类预测的流程图；

图5为本发明具体实施例的流程图；

图6为本发明方法的流程图。

具体实施方式

时间分类器是采用冲突站点部分一致性数据(图1中黑色点的气象数据)，及附近站点一致性数据(图1中T-1，T，T+1时刻的矩形内数据)，进行预测，其核心方法是随机森林算法：

1.选择气象序列数据并对数据进行标准化处理

选择矩形内所有站点不同时刻的数据作为分类的基础数据，其选择原则是尽量多的数据一致性站点(一个不一致性数据站点，其他都是一致性数据站点)，并将一个时间所有备选点的数据看作一条记录，对气象属性数据进行标准化处理。

在对数据处理前，需要对气象站站点数据进行标准化。气象序列数据包括风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等。假设t时总共有N条气象数据记录Rset_t，每条记录R_nt有M个属性

则：

Rset_t＝{R_n,t|(1≤n≤N)} (1)

首先，我们对属性数据

进行标准化为

假设其平均值为

方差为

对R_n,t采用以上方法实现标准化后，记作R_n,t′。这里，尽量选择一致性数据，但是极少量的不一致性数据是允许的，并不影响相关结果。

2.生成气象序列数据自动样本集

将每个时刻附近站点的数据看作一条记录(即一个时间所有备选点的数据看作一条记录：)：

NR_n＝{R_n,t′|1≤t≤T,1≤n≤N}

其中，R_n,t′代表站点n的所有时刻的标准化后的记录，t代表具体记录时间，T表示总的记录时间序列数量；N代表总的记录数。

其采用自助法(bootstrap)生成，自助法是从原始的样本容量为N的训练样本集合NR_n中随机抽取L(L<N)个样本(一个样本为步骤一中的一条记录)生成新的训练样本集，抽样方法为有放回抽样。按照这种方法，重复生成多个样本集。总的样本集数量为I。其具体过程如图1所示；图中分别描述了T-1，T，T+1时刻不同的气象要素采样点。灰色采样点表示已经获得正确数据(数据一致)的采样点，黑色采样点表示需要预测的数据点。其中方框内的采样点，表示被选择用来预测的采样点(气象站点)。

3.设计气象序列数据树分类器

针对步骤2中的每一个样本集，采用不同的分类方法(根据站点及气象属性)，建立不同的树分类器。其采用每次随机若干(模拟中采用一半站点数)站点数，随机若干个(不选地理位置信息情况下，总的属性数量的一半)气象属性(进行分类)的方法，对步骤中生成的样本集进行分类，形成多个分类器，完成分类器的设计工作。其具体过程如图2所示：

生长单棵分类树的原则是递归分区，我们采用二叉树的方法建立，即树中每个节点最多有两个分支节点。分类树按照不纯度最小的原则，首先找到一个特征(根据气象属性分类：风向、风速、温度、湿度、气压、雨量、光照度、土壤温度、土壤湿度、露点、太阳辐射量、太阳紫外线等)把全部训练样本分成两组(可以采用标准化后气象数据0.5划分为两个分支)，然后按照同样的规则对节点处的样本进行再次分类(根据上次没有采用的气象属性)。

在二叉树中，根节点包含全部训练数据，按照分支生成规则分裂为左孩子节点和右孩子节点，它们分别包含训练数据的一个子集，孩子节点可以继续分裂。每次分裂根据不同的气象属性。这样依次进行，直到不能分裂生长为止。

图3给出了随机森林的生成过程。其中noden,na分别为当前选择作为分支的站点ID，及当前选择的气象属性ID。

NDN，NAN分别表示总的站点数量，及总的气象属性数量。

按照图3给出的方式，生成不同的数据集，建立随机森林。

图3中的建立随机森林的过程，总是将冲突数据的属性作为最后的分类，这样采用所建的随机森林进行预测。

4.建成随机森林后，按照附近站点一致性数据及冲突站点的部分一致性气象数据对不一致性数据进行预测，得到预测结果。

图4是按一致的气象属性预测非一致气象属性方法。其中ne,NE分别表示当前选择的气象属性ID及总共的气象属性数量。图4描述了具体的预测过程：按照每一个一致性数据，逐步分类，直到没有一致性数据。

5.通过加权计算预测结果与记录结果(集，这里包含若干组有冲突的记录)的标准化后距离，如果预测多个气象属性，则选择最小的为最终结果。

假设预测结果为(A_i表示对站点i的某一气象属性预测，N代表总的站点数量)：

A＝{A₁,A₂,..,A_i,…A_N}

冲突的值有(

表示一组冲突的预测值，N代表总的节点数，M代表总的预测结果数量)，那么预测值矩阵为：

令

B(M)与A的距离为

取上面最小的值为最终预测方案。

如图5和图6所示，本发明具体实施流程为：

1.对收集的数据，先求出每个气象属性的均值及方差，采用公式(3)，对每一个气象属性进行标准化；

2.对标准化后的样本，选择若干个站点数据，同一时间的数据作为一条记录，按照可重复抽样原则，生成样本集；

3.对每一个样本集，按照一致性气象属性，进行分类，得到若干分类器，生成随机森林；

4.根据生成的随机森林，按照一致性气象属性，逐步分类，根据分类器，预测不一致数据；

5.根据预测的数据与不一致数据，按照公式(4)，计算标准化距离最小的记录值，为最后选择的值。