CN109299163B

CN109299163B - 一种基于卷积神经网络的降水数据的插值方法及装置

Info

Publication number: CN109299163B
Application number: CN201811417390.7A
Authority: CN
Inventors: 刘进; 彭伟强; 匡秋明; 叶思哲; 韩波
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-07-24
Anticipated expiration: 2038-11-26
Also published as: CN109299163A

Abstract

本发明提供了一种基于卷积神经网络的降水数据的插值方法及装置，其中的方法，首先对已有的高时间分辨率降水数据(48时次，逐小时)进行逐3小时累积处理，接着对处理后的数据上采样至原有时间分辨率(48时次，逐小时)，并在此基础上计算各个时次在对应的逐3小时降水中的比例，然后将上采样之前的数据按照此比例分配到原高时间分辨率，再利用维度变换方法，将得到的数据变换为二维数据，利用卷积神经网络模型对训练数据进行训练以得到合适的模型参数，最后利用训练出的模型对新的低时间分辨率降水数据(16时次,逐3小时)插值到高分辨率降水数据(48时次,逐小时)。实现了获得高时间分辨率降水数据以及提高预测效果的技术效果。

Description

一种基于卷积神经网络的降水数据的插值方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于卷积神经网络的降水数据的插值方法及装置。

背景技术

随着社会的发展，人们生活质量的提高，越来越多的人、越来越多的领域需要时间分辨率高的降水预报。而现有的很多预报模式，比如EC模式、NMC模式、RJTD模式等，其降水预报时间分辨率均为3小时，达不到高时间分辨率要求。

为了满足各种需求，需要提供高时间分辨率的降水数据。然而，降水本身是一个时间关联性很强的行为，相邻时间点之间降水大小关系密切，具有紧密的联系。

目前国内外针对时间序列数据的插值方法，有插值函数为一次多项式的线性插值算法，有基于观测值的拉格朗日插值算法，有考虑到降水数据起伏性的二次样条插值算法，还有基于求解三弯矩方程组得出曲线函数组的三次样条插值算法。

本发明申请人在实施本发明的过程中，发现现有的线性插值方法、拉格朗日插值方法、样条插值方法至少存在如下问题：

这些方法应用限制在相对较小的数据集中，采用现有的方法在平均误差和平均绝对误差、预报偏差指标表现并不理想，无法有效提供高时间分辨率的降水数据。

由上可知，现有技术的方法存在应用数据集大小限制而导致预报效果不佳的技术问题。

发明内容

有鉴于此，本发明提供了一种基于卷积神经网络的降水数据的插值方法及装置，用以解决或者至少部分解决现有技术的方法存在应用数据集大小限制而导致预报效果不佳的技术问题。

本发明第一方面提供了一种基于卷积神经网络的降水数据的插值方法，包括：

步骤S1：获取高时间分辨率的原始降水序列数据，其中，原始降水序列数据的时间分辨率为48时次、逐1小时，并将原始降水序列数据分为训练集和测试集；

步骤S2：对训练集中的降水序列数据进行逐3小时累积处理，获得第一训练集；

步骤S3：将第一训练集中的数据由16时次上采样至48时次，获得第二训练集；

步骤S4：将第二训练集中的每个48时次数据按照每组3时次分组，共分16组，并分别计算每一个时次的数据在该组内所占的比例，获得第二训练集每个数据中每时次数据占的比例；

步骤S5：根据计算出的比例，将第一训练集中每个数据的16时次数据再次分配至48时次的时间分辨率上，获得第三训练集；

步骤S6：基于预设维度变换方法，将第三训练集和训练集中的每个数据由一维转换为二维，并将维度变换后的数据构成目标训练集；

步骤S7：利用目标训练集对预设卷积神经网络模型进行训练，获得训练后的模型；

步骤S8：基于训练后的模型对待处理的16时次、逐3小时时间分辨率的降水数据插值为48时次、逐小时时间分辨率的降水数据。

在一种实施方式中，在步骤S7之前，所述方法还包括：

采用预设规则将目标训练集中的数据进行重新排序。

在一种实施方式中，所述预设卷积神经网络模型包括三层卷积和两层激活，步骤S7具体包括：

步骤S7.1：将目标训练集的每个数据，三层卷积和两层激活处理，获得输出结果；

步骤S7.2：根据输出结果设置优化函数，基于优化函数对目标训练集进行迭代，对预设卷积神经网络模型进行训练，并得到训练后的模型，其中，优化函数为：

其中，n表示训练样本的个数，F(X_i；Θ)表示第i个样本X_i经过三层卷积神经网络后的输出结果,Y_i表示样本X_i对应的标签数据。

在一种实施方式中，步骤S7.1具体包括：

S7.1.1：对目标训练集中的每一个数据，经过卷积操作，具体为：

F1(X)＝max(0，W1*X+B1)

其中，W1为第一层设置的卷积核，X为输入的训练数据，B1为第一层的偏置，*表示卷积操作，max表示采用Relu激活函数；

S7.1.2：将第一层卷积神经网络得到的输出继续进行卷积操作，具体为：

F2(X)＝max(0，W2*F1(X)+B2)

其中，W2为第二层设置的卷积核，F1(X)是第一层卷积神经网络的输出，B2为第二层的偏置，*表示卷积操作，max表示采用Relu激活函数；

S7.1.3：将第二层卷积神经网络得到的输出继续进行卷积操作，具体为：

F(X)＝W3*F2(X)+B3

其中，W3为第三层设置的卷积核，F2(X)是第二层卷积神经网络的输出，B3为第三层的偏置，*指的是卷积操作，这一层无需激活函数激活，获得的输出结果为F(X)。

在一种实施方式中，在步骤S8之后，所述方法还包括：

利用测试集对训练后的模型进行测试，检验训练后的模型的效果，并调整训练后的模型的参数，其中，参数具体包括卷积核与偏置；

并基于优化函数和调整后的参数，获得优化后的卷积神经网络模型。

在一种实施方式中，所述方法还包括：

构建评价指标检验优化后的卷积神经网络模型的预报效果。

在一种实施方式中，所述评价指标包括：TS评分、漏报率、空报率、预报偏差中的至少一种，各个指标的计算公式如下所示：

其中，TS_k为TS评分，PO_k为漏报率，FAR_k为空报率，B_k为预报偏差，NA_k为预报正确的站数、NB_k为空报站数、NC_k为漏报站数。

基于同样的发明构思，本发明第二方面提供了一种基于卷积神经网络的降水数据的插值装置，包括：

获取模块，用于获取高时间分辨率的原始降水序列数据，其中，原始降水序列数据的时间分辨率为48时次、逐1小时，并将原始降水序列数据分为训练集和测试集；

累积处理模块，用于对训练集中的降水序列数据进行逐3小时累积处理，获得第一训练集；

上采样模块，用于将第一训练集中的数据由16时次上采样至48时次，获得第二训练集；

分组模块，用于将第二训练集中的每个48时次数据按照每组3时次分组，共分16组，并分别计算每一个时次的数据在该组内所占的比例，获得第二训练集每个数据中每时次数据占的比例；

再分配模块，用于根据计算出的比例，将第一训练集中每个数据的16时次数据再次分配至48时次的时间分辨率上，获得第三训练集；

维度变换模块，用于基于预设维度变换方法，将第三训练集和训练集中的每个数据由一维转换为二维，并将维度变换后的数据构成目标训练集；

训练模块，用于利用目标训练集对预设卷积神经网络模型进行训练，获得训练后的模型；

插值模块，用于基于训练后的模型对待处理的16时次、逐3小时时间分辨率的降水数据插值为48时次、逐小时时间分辨率的降水数据。

在一种实施方式中，还包括排序模块，用于在步骤S7之前：

采用预设规则将目标训练集中的数据进行重新排序。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面的所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明提供的方法，首先对已有的高时间分辨率降水数据(48时次，逐小时)进行逐3小时累积处理，接着对处理后的数据上采样至原有时间分辨率(48时次，逐小时)，并在此基础上计算各个时次在对应的逐3小时降水中的比例，然后将上采样之前的数据按照此比例分配到原高时间分辨率，再利用维度变换方法，将得到的数据变换为二维数据，接着利用卷积神经网络模型对训练数据进行训练以得到合适的模型参数，最后利用训练出的模型对新的低时间分辨率降水数据(16时次,逐3小时)插值到高分辨率降水数据(48时次,逐小时)。解决了现有技术的方法存在的应用数据集大小限制而导致预报效果不佳的技术问题。

第一方面，考虑了降水的累积特性，在数据预处理部分，采用了合理的比例分配；第二方面，利用处理后的目标训练集对预设卷积神经网络进行训练，可以利用卷积神经网络对处理大型图片的能力，使得其可以处理较大的数据集，通过训练，可以提高插值的效果；第三方面，卷积神经网络在图片处理中的迁移性，使得其用在时间序列降水数据插值中也能有很好的迁移性，能很好的学习低时间分辨率降水数据到高时间分辨率降水数据的映射。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于卷积神经网络的降水数据的插值方法的流程图；

图2为卷积神经网络的示意图；

图3为本发明实施例中一种基于卷积神经网络的降水数据的插值装置的结构框图；

图4为本发明实施例中计算机可读存储介质的结构图。

具体实施方式

本发明的目的在于针对目前降水预报时间分辨率方面的不足，提供一种基于卷积神经网络的降水数据的插值方法，对已有的高时间分辨率(48时次逐小时)数据集，先进行数据预处理(累计三小时求和、上采样和再分配)，再通过维度变换，将训练数据由一维转换为二维，在卷积层，采用不同大小的卷积核来实现特征提取，然后利用卷积神经网络模型对二维数据进行训练，最后利用训练出的模型对低时间分辨率的降水数据进行插值到高时间分辨率。

为了达到上述的目的，本发明的主要构思如下：首先对已有的高时间分辨率降水数据(48时次，逐小时)进行逐3小时累积处理，接着对处理后的数据上采样至原有时间分辨率(48时次，逐小时)，并在此基础上计算各个时次在对应的逐3小时降水中的比例，然后将上采样之前的数据按照此比例分配到原高时间分辨率，再利用维度变换方法，将得到的数据变换为二维数据，利用卷积神经网络模型对训练数据进行训练以得到合适的模型参数，最后利用训练出的模型对新的低时间分辨率降水数据(16时次,逐3小时)插值到高分辨率降水数据(48时次,逐小时)。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于卷积神经网络的降水数据的插值方法，请参见图1，该方法包括：

首先执行步骤S1：获取高时间分辨率的原始降水序列数据，其中，原始降水序列数据的时间分辨率为48时次、逐1小时，并将原始降水序列数据分为训练集和测试集。

具体来说，高时间分辨率的原始降水序列数据可以从已有的数据库中获取。为了提高训练数据的准确性，可以从中国气象局获取汛期具有代表性的数据，作为原始降水序列数据。训练集和测试集的规模可以根据实际情况进行选取，例如选取70％作为训练集train，30％作为测试集test。在此不做具体限定。

然后执行步骤S2：对训练集中的降水序列数据进行逐3小时累积处理，获得第一训练集。

接下来执行步骤S3：将第一训练集中的数据由16时次上采样至48时次，获得第二训练集train2。

具体来说，上采样可以采用已有的插值方法来实现，具体可以是python包里内置的样条插值算法。具体地，将16时次采用样条插值算法插值为48时次，上采样也属于预处理的步骤，为后续步骤做准备，该步骤得到的第二训练集中的数据也是48小时高分辨率降水数据，但不能作为结果，因为如果直接插值则未考虑到降水的累积特性，逐3小时的降水是3个小时累积的。

然后执行步骤S4：将第二训练集中的每个48时次数据按照每组3时次分组，共分16组，并分别计算每一个时次的数据在该组内所占的比例，获得第二训练集每个数据中每时次数据占的比例。

具体来说，第二训练集中的数据的形式为形如：[1,2,3,4,5,6,7,8……48]的列表，列表中有48个元素，代表48个时次的降水值，在进行分组的时候，三个时次一组，也即1,2,3为一组，4,5,6为一组，7,8,9为一组……46,47,48为一组，一共16组。对第一组1,2,3这三个元素来说，1在该组中占比1/6，2在该组中占比2/6，3在该组中占比3/6。其他组的比例也类似，由此可以得到48个元素在各自组内的占比：proportion:[1/6,2/6,3/6,4/15,5/15,6/15,7/24,8/24,9/24…….]。

然后执行步骤S5：根据计算出的比例，将第一训练集中每个数据的16时次数据再次分配至48时次的时间分辨率上，获得第三训练集。

具体来说，由于若采用第二训练集中的数据直接插值，则未考虑到降水的累积特性，逐3小时的降水是3个小时累积的，本步骤就是实现将逐3小时降水分配到3个时次中，而不是简单的直接插值。

在具体的实施过程中，由于前述步骤得到了第二训练集每个数据中每时次数据占的比例，那么接下来则可以根据比例进行再分配了。

举例来说，计算出的比例如下：

proportion：[1/6,2/6,3/6,4/15,5/15,6/15,7/24,8/24,9/24…….]，其代表48个比例，若第一训练集train1的某个数据的16个时次降水数据为[12,15,48,.....]，其为一个包含16数据的列表，那么分配方式如下：

将第一个元素12按照proportion前三个比例进行分配，也就是12*1/6＝2,12*2/6＝4,12*3/6＝6，即将12分配到2,4,6这三个元素中，将第二个元素15按照proportion第4,5,6这三个比例进行分配，也就是15*4/15＝4,15*5/15＝5,15*6/15＝6,即将15分配到4,5,6三个元素中。以此类推，可以将16时次再次分配到48时次中。

接下来执行步骤S6：基于预设维度变换方法，将第三训练集和训练集中的每个数据由一维转换为二维，并将维度变换后的数据构成目标训练集。

具体来说，将第三训练集train3中每一个数据的维度由(1,48)变为(6,8)，将训练集train中每一个数据的维度由(1,48)变为(6,8)，并将train3和train维度变换后的数据构建成目标训练集T’。

步骤S7：利用目标训练集对预设卷积神经网络模型进行训练，获得训练后的模型。

具体地，在步骤S7之前，所述方法还包括：

采用预设规则将目标训练集中的数据进行重新排序。

举例来说，可以采用随机的方式对目标训练集中的数据进行排序，或者根据采集的时间对其进行重新排序。当采用随机的方式时，保证每一次打乱后顺序各不相同，保证训练样本的组合随机性。

具体地，所述预设卷积神经网络模型包括三层卷积和两层激活，步骤S7具体包括：

具体来说，预设卷积神经网络模型，主要是对降水数据进行时间分辨率的提高，可以将各个预报模式，比如：中国的智能网格预报、日本的RJTD模式、欧洲中心的EC模式，降水的时间分辨率由逐3小时提高到逐1小时。

具体地，步骤S7.1具体包括：

F1(X)＝max(0，W1*X+B1)

F2(X)＝max(0，W2*F1(X)+B2)

F(X)＝W3*F2(X)+B3

上述预设卷积神经网络模型PreCNN包括三层卷积和两层激活，请参见图2，为卷积神经网络模型的结构示意图，其输入为经过上采样之后的数据，经过三层卷积后输出结果，并与标签数据进行比对，然后对步骤S7.2中的优化函数进行优化。

具体地，第一层卷积作用为特征提取。第二层卷积作用：非线性变换。第三层卷积作用：数据重构。在具体的实施过程中，对目标训练集T'中的每一个数据，其样本和对应的标签大小均为(6,8)，经过第一层卷积神经网络，使用的是SAME卷积方式，故得到的结果尺寸不变，同时使用Relu(Rectified Linear Unit)激活函数进行激活并将激活后的结果作为第一层的输出。然后将第一层卷积神经网络得到的输出继续进行卷积操作，第二层同样使用的是SAME卷积方式，故得到的结果尺寸不变。第二层也需要激活，同样使用Relu(Rectified Linear Unit)激活函数进行激活并将激活后的结果作为第二层的输出。将第二层卷积神经网络得到的输出继续进行卷积操作，第三层同样使用的是SAME卷积方式，故得到的结果尺寸不变。第三层无需激活函数激活，得到的结果即为F(X)。基于预设卷积神经网络和目标训练集可以得到训练后的模型，从而达到简化结构、提高处理速度以及提高预测效果的技术效果。

其中，多轮迭代是指是每一次都将目标训练集按照不同的顺序打乱，重新组合训练，可以充分利用已有的数据。迭代次数可以根据优化函数进行设置，例如可以简单将迭代次数设置为5000、8000等等。

具体来说，通过前述步骤得到了训练后的模型，则可以利用该模型进行降水数据的插值处理了，可以将待处理的低时间分辨率的降水数据插值为高时间分辨率的降水数据。

总体来说，本发明涉及对低时间分辨率的降水数据的插值方法，具体是通过对已有的逐小时降水数据先进行数据预处理，以生成训练数据集。在进行输入之前，需要将一维的时间序列数据变换为二维数据，将变换后的时间序列数据类比为图像，将降水值类比为图像的像素值。通过卷积神经网络训练，提取其相邻时间点的降水关系特征，通过使用Relu激活函数避免和纠正梯度消失问题。最后，通过训练出的模型来实现时间序列降水数据的插值。

在一种实施方式中，在步骤S8之后，所述方法还包括：

具体来说，可以根据优化函数中的优化对象来对模型进行优化，当优化的对象处于一个预设范围内且保持稳定后，则得到优化后的卷积神经网络模型。由于深度学习采用反向传播机制来进行参数优化，但优化也是有一个限度的，只要损失在一个合理的范围内，则可以认为模型训练完成。

在一种实施方式中，所述方法还包括：

构建评价指标检验优化后的卷积神经网络模型的预报效果。

在一种实施方式中，评价指标包括：TS评分、漏报率、空报率、预报偏差中的至少一种，各个指标的计算公式如下所示：

具体来说，各个评价指标与预报效果之间的关系如下：

TS评分越高，预报效果越好，

漏报率、空报率越低，预报效果越好，

预报偏差越小，预报效果越好。

基于同一发明构思，本申请还提供了与实施例一中基于卷积神经网络的降水数据的插值方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于卷积神经网络的降水数据的插值装置，请参见图3，该装置包括：

获取模块301，用于获取高时间分辨率的原始降水序列数据，其中，原始降水序列数据的时间分辨率为48时次、逐1小时，并将原始降水序列数据分为训练集和测试集；

累积处理模块302，用于对训练集中的降水序列数据进行逐3小时累积处理，获得第一训练集；

上采样模块303，用于将第一训练集中的数据由16时次上采样至48时次，获得第二训练集；

分组模块304，用于将第二训练集中的每个48时次数据按照每组3时次分组，共分16组，并分别计算每一个时次的数据在该组内所占的比例，获得第二训练集每个数据中每时次数据占的比例；

再分配模块305，用于根据计算出的比例，将第一训练集中每个数据的16时次数据再次分配至48时次的时间分辨率上，获得第三训练集；

维度变换模块306，用于基于预设维度变换方法，将第三训练集和训练集中的每个数据由一维转换为二维，并将维度变换后的数据构成目标训练集；

训练模块307，用于利用目标训练集对预设卷积神经网络模型进行训练，获得训练后的模型；

插值模块308，用于基于训练后的模型对待处理的16时次、逐3小时时间分辨率的降水数据插值为48时次、逐小时时间分辨率的降水数据。

在一种实施方式中，还包括排序模块，用于在步骤S7之前：

采用预设规则将目标训练集中的数据进行重新排序。

在一种实施方式中，所述预设卷积神经网络模型包括三层卷积和两层激活，训练模块307具体用于执行下述步骤：

在一种实施方式中，训练模块307具体用于执行下述步骤：：

F1(X)＝max(0，W1*X+B1)

F2(X)＝max(0，W2*F1(X)+B2)

F(X)＝W3*F2(X)+B3

在一种实施方式中，还包括优化调整模块，用于在步骤S8之后：

在一种实施方式中，还包括评价指标构建模块，用于：

构建评价指标检验优化后的卷积神经网络模型的预报效果。

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于卷积神经网络的降水数据的插值方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种计算机可读存储介质400，请参见图4，其上存储有计算机程序411，该程序被执行时实现实施例一中的方法。

由于本发明实施例三所介绍的计算机可读存储介质，为实施本发明实施例一中基于卷积神经网络的降水数据的插值方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。