CN111723929A

CN111723929A - 一种基于神经网络的数值预报产品订正方法、装置和系统

Info

Publication number: CN111723929A
Application number: CN202010384893.XA
Authority: CN
Inventors: 张勤学; 颜继雄; 潘明海
Original assignee: Guangzhou Falacloud Information Technology Co ltd
Current assignee: CELL COMMUNICATIONS TECHNOLOGY Co.,Ltd.
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-09-29

Abstract

本发明公开了一种基于神经网络的数值预报产品订正方法，步骤包括：获取原始预报数据和历史观测数据；对所述原始预报数据和所述历史观测数据进行预处理以生成训练集；利用所述训练集优化气象数值预报订正模型；将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值。本发明提供了一种基于神经网络的数值预报产品订正方法、装置和系统，改进现行天气及空气质量预报精度，为未来精细化格点预报提供高分辨率、深度分析的订正服务。

Description

一种基于神经网络的数值预报产品订正方法、装置和系统

技术领域

本发明涉及神经网络技术领域，尤其是涉及一种基于神经网络的数值预报产品订正方法、装置和系统。

背景技术

目前，气象及环保的预报业务针对数值模式的预报产品大部分使用统计订正方法，即通过中短期内的历史数据进行简单地线性回归处理后，找到某一项要素近期内的变化趋势作为订正基础，再结合人工经验对预报结果进行经验修正的常规订正手段。这种常规的修订手段过多依赖人工经验，其判断失误会大幅提高误报率，而且订正过程针对较大片区，无法适应未来超精细化格点预报分辨率的变化。

发明内容

针对上述技术问题，本发明提供了一种基于神经网络的数值预报产品订正方法、装置和系统，改进现行天气及空气质量预报精度，为未来精细化格点预报提供高分辨率、深度分析的订正服务。所述技术方案如下：

第一方面，本发明实施例提供了一种基于神经网络的数值预报产品订正方法，步骤包括：

获取原始预报数据和历史观测数据；

对所述原始预报数据和所述历史观测数据进行预处理以生成训练集；

利用所述训练集优化气象数值预报订正模型；

将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值。

在本发明第一方面的第一种可能的实现方式中，所述对所述原始预报数据和所述历史观测数据进行预处理以生成训练集，具体步骤包括：

获取原始预报数据和历史观测数据后，从所述原始预报数据中提取网格位置数据，以及从历史观测数据提取站点位置数据；

根据所述网格位置数据及所述站点位置数据，利用插值算法将原始预报数据插值到站点，以整理成作为训练集的数据表。

在本发明第一方面的第二种可能的实现方式中，所述将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值，具体为：

设定更新时间；

查询预报发布文件以确定目标时间；

根据所述更新时间和所述目标时间，设定订正目标时间；

对每个订正目标时间构造训练集以训练对应的气象数值预报订正模型；

调用对应的气象数值预报订正模型做出订正。

在本发明第一方面的第三种可能的实现方式中，所述对每个订正目标时间构造训练集，具体为：

输入首末发布时间以确定数据集范围；

遍历首末发布时间之间的所有发布时间点，对每一发布时间点构造训练集；

合并所有发布时间点的训练集。

在本发明第一方面的第四种可能的实现方式中，所述利用所述训练集优化气象数值预报订正模型，在训练过程中采用迷你批量下降法进行优化迭代，按照由若干个样本组成的样本批次计算参数更新的梯度，具体计算方式如下：

其中，w_ij ⁽ⁿ⁾为第n批量的梯度值，w_ij ^(n-1)为n-1批量的梯度值，α为学习率，

为当前位置的损失函数的梯度，其中

为求导形式，E_nk(w^(n-1)) 为损失函数。

在本发明第一方面的第五种可能的实现方式中，如权利要求5所述的基于神经网络的数值预报产品订正方法，其特征在于，神经网络训练过程中，对于每一样本批次的每个隐层节点输入值，通过以下方式进行标准化：

其中，

x分别为标准化后、标准化前的节点输入值，E[x]和Var[x]分别是该样本批次在该节点输入值的均值和方差。

第二方面，本发明实施例提供了一种基于神经网络的数值预报产品订正装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于神经网络的数值预报产品订正方法。

第三方面，本发明实施例提供了一种基于神经网络的数值预报产品订正系统，包括：

采集模块，用于获取原始预报数据和历史观测数据；

数据处理模块，用于对所述原始预报数据和所述历史观测数据进行预处理以生成训练集；

模型优化模块，用于利用所述训练集优化气象数值预报订正模型；

订正模块，用于将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值。

在本发明第三方面的第一种可能的实现方式中，所述数据处理模块，还包括：

解析模块，用于获取原始预报数据和历史观测数据后，从所述原始预报数据中提取网格位置数据，以及从历史观测数据提取站点位置数据；

插值计算模块，用于根据所述网格位置数据及所述站点位置数据，利用插值算法将原始预报数据插值到站点，以整理成作为训练集的数据表。

在本发明第三方面的第二种可能的实现方式中，所述订正模块，包括：

时间设置模块，用于设定更新时间；查询预报发布文件以确定目标时间；以及根据所述更新时间和所述目标时间，设定订正目标时间；

数据分类模块，用于对每个订正目标时间构造训练集；

模型调用模块，用于调用对应的气象数值预报订正模型做出订正。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提供一种基于神经网络的数值预报产品订正方法、装置和系统，本发明技术方案通过深度学习的天气预报、污染气象条件预报和空气质量预报的气象数值预报订正模型，并利用基于原始预报数据和历史观测数据生成的训练集对该模型进行训练、测试、检验和优化，使得所述气象数值预报订正模型能够计算出更准确的订正值，相比起人工订正降低误报率，改进现行天气及环保预报精度，为未来精细化格点预报提供高分辨率、深度分析的订正服务。

附图说明

图1是本发明实施例中的一种基于神经网络的数值预报产品订正方法的步骤流程图；

图2是本发明实施例中的一种基于神经网络的数值预报产品订正方法的训练/ 测试集的自/因变量的输出显示图；

图3是本发明实施例中的一种基于神经网络的数值预报产品订正方法的神经网络超参数的输出显示图；

图4是本发明实施例中的一种基于神经网络的数值预报产品订正方法的神经网络超参数确定实验数据设定的输出显示图；

图5是本发明实施例中的一种基于神经网络的数值预报产品订正方法的时间分层实验数据设定的输出显示图；

图6是本发明实施例中的一种基于神经网络的数值预报产品订正方法的训练频率实验数据设定的输出显示图；

图7是本发明实施例中的一种基于神经网络的数值预报产品订正系统的系统网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明提供一种示例性实施例，一种基于神经网络的数值预报产品订正方法，步骤包括：

S101、获取原始预报数据和历史观测数据；

例如，通过读取服务器数据获取，观测数据：/data1/zhongszx/data/obs；预报数据：/data1/zhongszx/data/mars3km。

S102、对所述原始预报数据和所述历史观测数据进行预处理以生成训练集；

S103、利用所述训练集优化气象数值预报订正模型；

可以理解的是，所述气象数值预报订正模型是基于神经网络模型，通过特定数据集训练得到的。

S104、将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值。

所述获取原始预报数据和历史观测数据，还需要对原始预报数据和历史观测数据进行数据预处理，包括步骤：

删除历史观测数据的缺失值以及标记历史观测数据的异常值。

还有，删除原始预报数据中的不相关数据；例如，vis/TD2/MCIN等跟目标不相关的数据信息；

将原始预报数据的累计降水量分解为每小时降水量；

可以理解的是，由于预报数据提供的降水为24小时累计降水，而实况是一小时降水，故预报数据的降水得减去上个小时的降水才为一小时降水。

将原始预报数据拆分后重置索引。

所述对所述原始预报数据和所述历史观测数据进行预处理以生成训练集，具体步骤包括：

需要说明的是，所述利用插值算法将对应站点的历史观测数据插值到网格位置上，首先考虑的是空间属性在空间位置上的变异分布.确定对一个待插点值有影响的距离范围，然后用此范围内的采样点来估计待插点的属性值。根据空间位置不同、空间相关程度的不同，对每个网格点赋予不同的权，进行滑动加权平均，以估计待插点值。

需要说明的是，最终训练好并维护的神经网络模型有若干个，使用时需依据产品要素(factor)、发布更新间隔(ruInterval)和发布小时偏置(predH)等三个参数引用。

所述将数值预报及最新观测数据通过所述气象数值预报订正模型进行运算，得出气象数值预报订正值，具体为：

设定更新时间；

查询预报发布文件以确定目标时间；

根据所述更新时间和所述目标时间，设定订正目标时间；

所述订正目标时间范围，即还需要更新的目标时间范围；

调用对应的气象数值预报订正模型做出订正。

优选地，根据发布更新间隔ruInterval和发布小时偏置predH调用对应的气象数值预报订正模型model(factor,ruInterval,predH)做出订正。

所述对每个订正目标时间构造训练集，具体为：

输入首末发布时间以确定数据集范围；

合并所有发布时间点的训练集。

请参见图2，在本实施例中，对每一发布时间点利用自/因变量框表构造训练集，所述自/因变量框表如图所示。

所述气象数值预报订正模型具体是一种DNN结构的深度神经网络模型；从 DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层。一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层，可以看作是在输入层和输出层之间插入了若干个全连接层(Dense layer)，并且在输入层和每个全连接层之上依次压入一个批量标准化层 (BatchNormalization layer)和一个神经元舍弃层(Dropout layer)。各类层的用处为：

全连接层(Dense layer)：将本层所有神经元与前一层的所有神经元互相连接，并在计算完线性组合之后对每个神经元施加激活函数。

批量标准化层(BatchNormalization layer)：将前一层一个批量的数据做标准化。

神经元舍弃层(Dropout layer)：将前一层的各个神经元以一定的概率舍弃。

所述利用所述训练集优化气象数值预报订正模型，在训练过程中采用迷你批量下降法进行优化迭代，按照由若干个样本组成的样本批次计算参数更新的梯度，具体计算方式如下：

为当前位置的损失函数的梯度，其中

为求导形式，E_nk(w^(n-1)) 为损失函数。

所述迷你批量下降法并非按照单个样本计算每次参数更新的梯度，因此，迷你批量方法可以视为普通的梯度下降方法和随机梯度下降方法的一个折中。

一方面保证了算法迭代的高效性；另一方面，在批次内各类样本选取均衡的情况下，每次迭代时的参数更新都是近似朝着“最优”的方向进行的。

可以理解的是，所述具体为DNN结构的深度神经网络模型的气象数值预报订正模型，在训练数据有限的情况下，神经网络表达的某些特征可能源于噪声—— 这种数据特征只存在于训练集中，与数据中隐含的真实信息无关，这就会引起“过拟合”现象，因此需要利用Dropout函数有效减小深层神经网络过拟合。

Dropout会设定概率，在每次迭代训练时，每个隐含节点按照概率保留或舍弃。对于一个包含n个神经元的网络，每个节点都有被丢弃和不被丢弃两种可能性，因此训练带有Dropout的神经网络可以看成是在训练2个“简化版”的神经网络。

在本实施例中，在每一个隐层节点的激活函数之前，采用BatchNormalizaiton 法对激活函数输入值进行标准化操作，调整每一个神经元节点输入值的均值和方差。这能够使得神经元输入值的分布更稳定，有利于模型的梯度计算和参数的迭代优化。使得我们优化神经网络参数时能够使用更大的学习率，加快网络参数收敛。所述BatchNormalizaiton法具体做法如下：

神经网络训练过程中，对于每一样本批次的每个隐层节点输入值，通过以下方式进行标准化：

其中，

优选地，在上述标准化步骤之后，引入参数γ和β，对每个节点的均值和方差进行调整：

Y＝γx+β

其中参数γ和β在训练过程中会不断更新，直到接近最优值。通过这样的变换，使得所有的样本在该节点输入值的均值变成β，标准差变成γ。使得标准化之后因损失节点变量的均值和方差信息而降低神经网络的特征表达能力得到调整。

进一步地，所述气象数值预报订正模型具体是一种LSTM结构的递归神经网络模型；

可以理解的是，在传统神经网络中，模型不会关注上一时刻的处理会有什么信息可以用于下一时刻，每一次都只会关注当前时刻的处理。举个例子来说，我们想对一部影片中每一刻出现的事件进行分类，如果我们知道电影前面的事件信息，那么对当前时刻事件的分类就会非常容易。实际上，因为传统神经网络没有记忆功能，它对每一刻出现的事件进行分类时不会用到影片已经出现的信息，所以需要Recurrent Neural Networks(RNNs)递归神经网络。

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

请参见图3，所述气象数值预报订正模型涉及的超参数如图所示。

在本实施例中，所述气象数值预报订正模型的超参数设置步骤如下：

1、结合训练集大小和计算性能确定层数、神经元个数和训练批量；

2、确定舍弃概率，优选概率为0.2或0.3；

3、设定其余变量的初始值，利用贪心法则依次确定优化器、激活函数和学习率函数参数；

4、根据最终效果微调各个参数。

本发明提供一种具体实施例，依据训练阶段构造训练/测试集，在取定时间范围内构造多组训练集，并且对每一气象数值预报订正模型model(factor,ruInterval,predH)都进行训练和测试，因此单次实验只列出训练/测试集的首末更新时间。

所有实验总共需要的数据集时间范围是[2017-05-31-00,2019-09-03-23]。

请参见图4，测试集取自2019年6、7、8月数据，训练集设定为前推一年内数据。

请参见图5，本实施例用于说明训练样本量和测试误差之间的关系。测试集均取自2019年6、7、8月数据，训练集分别设定为前推两年、前推一年、前推两年内夏季、前推一年内夏季、前推两年内单个月、前推一年内单个月这6种情况。

请参见图6，本实验用于说明神经网络模型的效果随时间推移的变化情况，以确定训练频率。训练集取自2017-06-01-00到2018-05-31-23之间的一年数据，测试集分别为2018-06到2019-08之间共15个月的数据。

最终输出结果包括预测值、预测产品/因子如“PRESS”、修正时间、结果评估值、结果评估方式、站点。

本发明实施例提供了一种基于神经网络的数值预报产品订正装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于神经网络的数值预报产品订正方法。

请参见图7，本发明实施例提供了一种基于神经网络的数值预报产品订正系统，需要说明的是，所述基于神经网络的数值预报产品订正系统由服务器集群构成，所有功能的实现至少需要一个服务器提供，本实施例仅以功能抽象地划分：数据中心：包括数据库服务+数据中心共享接口服务(唯一的数据访问入口)；神经网络：包括神经网络统计模型订正模块和订正绘图模块任务；数据采集：包括众多数据采集任务，如气象预报数据、实况数据、国控站点环保数据等；可视化管理服务；后台任务注册和调度服务；nginx接入和负载均衡；

所有服务器支持气象内网互通；ngnix接入服务(唯一的外网入口)；

所述基于神经网络的数值预报产品订正系统包括：

采集模块，用于获取原始预报数据和历史观测数据；

所述数据处理模块，还包括：

所述订正模块，包括：

数据分类模块，用于对每个订正目标时间构造训练集；

所述数据分类还用于：

输入首末发布时间以确定数据集范围；

合并所有发布时间点的训练集。

所述数据处理模块还用于执行数据预处理：

将原始预报数据的累计降水量分解为每小时降水量；

将原始预报数据拆分后重置索引。

所述基于神经网络的数值预报产品订正系统，还包括模型训练模块；

所述模型训练模块，在训练过程中采用迷你批量下降法进行优化迭代，按照由若干个样本组成的样本批次计算参数更新的梯度，具体计算方式如下：

为当前位置的损失函数的梯度，其中

为求导形式，E_nk(w^(n-1)) 为损失函数。

所述模型训练模块，在神经网络训练过程中，对于每一样本批次的每个隐层节点输入值，通过以下方式进行标准化：

其中，

Y＝γx+β

本发明的实施例所述的训练集可根据需求设定为年份、季度或单月等情况进行时间分层实验，比较模型的精度。当每小时的实况数据产生时，将对模型的预测效果进行评估及监控，模型的效果不佳时，可进行模型更新优化。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM) 或随机存储记忆体(RandomAccess Memory,RAM)等。