CN115630742A

CN115630742A - 一种基于自监督预训练的天气预测方法及系统

Info

Publication number: CN115630742A
Application number: CN202211346785.9A
Authority: CN
Inventors: 宫永顺; 贺甜甜; 尹义龙
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-20

Abstract

本发明涉及天气预测技术领域，提供了一种基于自监督预训练的天气预测方法及系统，包括：获取多段时间内多个天气站点的气象要素观测值，采用天气预测模型，得到每个天气站点的天气预测值；其中，天气预测模型使用包含时间、站点和天气变量特征三个维度的天气预测任务数据训练得到，具体的：基于不同站点之间的天气相似性和不同时间之间的天气相似性，通过对比自监督学习得到空间编码器和时间编码器；基于不同天气变量特征之间的关系，通过生成式自监督学习来对构造的缺失天气预测任务数据进行重构，得到上下文重建编码器；将预训练得到的空间编码器、时间编码器和上下文重建编码器迁移到天气预测模型中后，进行微调。提高了天气预测精度。

Description

一种基于自监督预训练的天气预测方法及系统

技术领域

本发明属于天气预测技术领域，尤其涉及一种基于自监督预训练的天气预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

天气与人们的生活密切相关，其影响触及到方方面面，比如交通、农业生产、能源生产等。准确的天气预报可以提前预警洪水、飓风等气象灾害事件，给人类生命财产安全提供一定的保障；另外在新能源领域，通过提供新能源预测所需的风速、辐照度、雨量等预报数据，可以合理高效地调配能源的使用；同时它也为日常出行提供了极大的便利。

目前的天气预测方法主要分为基于物理模型的数值天气预测方法以及基于数据驱动的机器学习方法。

基于物理模型的数值天气预测方法是目前主要的天气预测方法，其通过超级计算机来求解与大气动力学相关的非线性微分方程，与此同时，它存在着明显的弊端，比如大量计算资源的耗费，初始条件设置的不确定性等。

随着人工智能技术的发展，基于数据驱动的机器学习方法越来越多，尤其是深度学习方法，受到了研究者们的广泛关注。相比于数值天气预测方法，数据驱动模型减少了计算资源的消耗，也无需对初始条件进行设置。

但是，大多数现有的基于数据驱动的机器学习天气预测方法仍然存在一些不足：简单将一个天气站点当作整体，没有更细粒度地去探究属于多个站点的天气变量之间的关系，或者是使用了复杂的网络结构。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于自监督预训练的天气预测方法及系统，利用对比自监督的思想预训练得到空间编码器和时间编码器，利用生成式自监督的思想预训练得到上下文重建编码器，充分考虑了空间维度上多个天气站点之间天气状况的相似性、时间维度上天气周期性变化带来的相似性、以及上下文角度中多个天气站点的天气变量之间的时空依赖性，进而提高了天气预测精度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于自监督预训练的天气预测方法，其包括：

获取多段时间内多个天气站点的气象要素观测值；

基于获取的气象要素观测值，采用天气预测模型，得到每个天气站点的天气预测值；

其中，天气预测模型使用包含时间、站点和天气变量特征三个维度的天气预测任务数据训练得到，具体的：基于不同站点之间的天气相似性和不同时间之间的天气相似性，通过对比自监督学习得到空间编码器和时间编码器；基于不同天气变量特征之间的关系，通过生成式自监督学习来对构造的缺失天气预测任务数据进行重构，得到上下文重建编码器；将预训练得到的空间编码器、时间编码器和上下文重建编码器迁移到天气预测模型中后，基于天气预测任务数据进行微调。

进一步地，使用对比损失函数对空间编码器进行预训练；

所述对比损失函数的公式如下：

其中，z_a、

和

分别表示锚点、正样本和负样本的特征表示；以某个天气站点为锚点X_a，并设定一个距离阈值，当某个天气站点与锚点之间的天气相似性小于距离阈值时，将该天气站点划分为正样本，反之划分为负样本，得到正样本集合

和负样本集合

进一步地，使用三元组损失来对时间编码器进行优化预训练；

所述三元组损失的公式如下：

其中，β是间隔参数；以某个时刻为锚点X^*，沿着时间轴计算其余时刻与锚点时刻的天气相似性，将相似性最高的时刻作为正样本X⁺，相似性最低的时刻作为负样本X^-，对于锚点X^*、正样本X⁺和负样本X^-，分别通过时间自监督预训练模型后得到高级语义表示e、e⁺和e^-。

进一步地，对天气数据进行处理缺失值、数值归一化以及输入维度的处理后，得到包含时间、站点和天气变量特征三个维度的天气预测任务数据。

进一步地，所述天气预测模型还包括拼接层；

所述拼接层将空间编码器、时间编码器和上下文重建编码器得到的特征表示相结合，得到拼接特征：

H＝concat(H_s,H_t,H_c)

其中，H_s、H_t和H_c分别为空间编码器、时间编码器和上下文重建编码器得到的特征表示。

进一步地，所述天气预测模型还包括解码器；

所述解码器由三个依次连接的卷积层组成，前两个卷积层的输出经过ReLU激活函数。

进一步地，所述空间编码器由两层卷积和一个位置注意力模块构成；

所述位置注意力模块的输出为：

P′＝αB+P

B＝eshape(AV)

A＝Softmax(QK)

其中，Q、K和V为位置注意力模块的三个并行的卷积层得到三个特征矩阵，P表示位置注意力模块的输入，α是可学习尺度因子。

本发明的第二个方面提供一种基于自监督预训练的天气预测系统，其包括：

数据获取模块，其被配置为：获取多段时间内多个天气站点的气象要素观测值；

天气预测模块，其被配置为：基于获取的气象要素观测值，采用天气预测模型，得到每个天气站点的天气预测值；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于自监督预训练的天气预测方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于自监督预训练的天气预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于自监督预训练的天气预测方法，其利用对比自监督的思想预训练得到空间编码器和时间编码器，利用生成式自监督的思想预训练得到上下文重建编码器，充分考虑了空间维度上多个天气站点之间天气状况的相似性、时间维度上天气周期性变化带来的相似性、以及上下文角度中多个天气站点的天气变量之间的时空依赖性，使得模型表达能力得到有效提高，从而进一步提高了天气预测模型的预测能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的一种基于自监督预训练的天气预测方法的流程图；

图2(a)是本发明实施例一的上下文重建自监督预训练模块中删除变量的示意图；

图2(b)是本发明实施例一的上下文重建自监督预训练模块中恢复变量的示意图；

图3是本发明实施例一的天气预测模型的结构图；

图4是本发明实施例一的空间编码器中位置注意力模块结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提供了一种基于自监督预训练的天气预测方法，利用对比自监督的思想预训练得到空间编码器和时间编码器，利用生成式自监督的思想预训练得到上下文重建编码器，充分考虑了空间维度上多个天气站点之间天气状况的相似性、时间维度上天气周期性变化带来的相似性、以及上下文角度中多个天气站点的天气变量之间的时空依赖性，进而提高了天气预测精度。如图1所示，包括如下步骤：

步骤1、获取历史天气数据，包含一段时间内多个天气站点的气象要素观测值(如温度、气压、湿度等)。

步骤2、对历史天气数据进行预处理，包括处理缺失值、数值归一化以及输入维度的处理，得到包含时间、空间和天气变量特征三个维度的天气预测任务数据。

步骤201、使用线性插值方法处理缺失值，公式如下：

其中，x_t表示当前t时刻的缺失天气数据，x_a表示a时刻的天气数据，且是大于t时刻的最近有值天气数据，x_b表示b时刻的天气数据，同时也是小于t时刻的最近有值天气数据。

步骤202、使用min-max归一化方法将所有数据缩放到[0,1]的范围内，转换公式如下：

其中，x_ori表示原始天气数据，x_min表示历史天气数据最小值，x_max表示历史天气数据最大值，x表示标准化之后的天气数据。

步骤203、将历史天气数据处理为三维格式，即输入样本

其中T表示时间窗口，C表示天气站点的数量，F表示天气特征的维度。

步骤3、构建自监督预训练数据和模型，具体方法如下：

在预训练阶段，使用了两种自监督学习的方法，分别是对比自监督和生成式自监督。自监督方法充分利用了数据本身的特性来指导学习，不依赖于人工标注的标签。其中，对比自监督的核心思想是通过数据之间的对比进行表示学习，让相似样本的所得表示差异更小，不相似样本的所得表示差异更大，其更加侧重于从抽象语义级别的特征空间中学习数据区别。生成式自监督则是一种基于元素级别的重构，即将预处理后的原始数据通过编码器映射到隐空间，然后通过解码器来将隐空间中的特征嵌入还原为初始数据。与对比自监督学习不同的是，生成式自监督学习更加注重于实例的细节特征。本发明中，将两者相结合，从宏观和微观两种粒度来学习特征提取器。

步骤301、在空间维度上，考虑到地形、所处气候带等因素，即使区域之间的距离较远，其天气状态仍具有一定的相似性，所以，使用对比自监督的思想来构建空间编码器。具体地，给定T时间段内多个天气站点的天气数据，以某个天气站点为锚点

使用预处理后的原始天气数据计算其余天气站点与锚点之间的欧几里得距离，从而得到天气站点之间的相似性，即距离越大，相似性越高，反之相似性越低。这里设定一个距离阈值γ，当某个天气站点与锚点之间的距离小于阈值γ时，将该天气站点划分为正样本，反之划分为负样本，继而得到正样本集合

和负样本集合

通过对比自监督学习，使得在潜在空间中正样本对的距离更近，负样本对的距离更远。

对于空间自监督预训练模型G_s，其包括空间编码器和非线性投影头。其中，空间编码器如图3所示，输入数据依次经过第一个卷积核大小为1×1的卷积层(Conv 1×1)，非线性激活函数Relu，位置注意力模块PAM以及第二个卷积核大小为1×1的卷积层(Conv 1×1)和非线性激活函数Relu，从而得到天气站点初步的空间特征表示；然后使用非线性投影头，即一个带有非线性激活函数Relu的全连接层来得到更加高级的语义表示。而空间编码器中加入位置注意力模块旨在更深入全面地挖掘天气站点之间的关系。

如图4所示，位置注意力模块主要由三个并行的卷积层组成，通过其可得到三个特征矩阵，分别为Q、K、V，进而计算注意力权重矩阵

A＝Softmax(QK)

进一步可以得到该注意力模块的输出

P′＝αB+P

其中，

表示位置注意力模块的输入，T′表示经过空间编码器的第一层卷积后的通道维数，α是可学习尺度因子。

输入数据

经过空间自监督预训练模型后得到高级语义表示

其中z_i表示天气站点i的高级语义特征表示，d代表天气站点i经过空间自监督预训练模型映射后的特征维度，最后使用对比损失函数对空间编码器进行优化，公式如下：

其中，z_a、

和

分别表示锚点、正样本和负样本的通过空间自监督预训练模型得到的特征表示，并且使用点积来计算向量之间的相似度。该损失函数使得锚点与正样本之间的特征表示距离更近，与负样本之间的特征表示距离更远，从而使得空间编码器有更强大的表征能力与鉴别能力。

步骤302、在时间维度上，考虑到天气变化的周期性变化，同样使用了对比自监督的思想挖掘不同时刻天气的相似性。具体地，以某个时刻t多个天气站点的天气数据为锚点

沿着时间轴计算其余时刻与锚点时刻天气数据的欧几里得距离来得到其相似性，将相似性最高的时刻作为正样本

相似性最低的时刻作为负样本

继而给定T时间段内多个天气站点的天气数据

可以得到对应的正样本

和负样本

需要说明的是，因为输入的锚点天气数据是多个时刻的，所以也对应了每个时刻的正样本和负样本，最后将各个时刻的正样本(负样本)拼接起来，得到了T个维度的正样本(负样本)。

时间自监督预训练模型G_T则由时间编码器和非线性投影头(多层感知机)构成。时间编码器中主要通过共享的循环神经网络RNN来提取各个站点天气数据(X₁,X₂,...,

)的时序特征，然后将各天气站点的时序特征拼接(concat)后经过全连接层Linear，并且扩展维度(Expand dimension)生成三维的特征数据，继续经过卷积核大小为1×1的卷积层(Conv 1×1)以及非线性激活函数Relu得到低级时间特征。这里同样使用非线性投影头，即一个带有非线性激活函数Relu的全连接层来得到时间维度的高级语义特征。具体地，对于锚点X^*、正样本X⁺和负样本X^-，其分别通过时间自监督预训练模型后得到高级语义表示e、e⁺和

这里使用三元组损失来对时间编码器进行优化，公式如下：

其中，β是间隔参数。上述损失函数使得锚点和正样本之间的距离不断拉近，和负样本之间的距离不断拉远，从而对数据有更好的表示。这里与空间自监督预训练模型的优化不同的是正样本和负样本的数量，时间维度上，对于每个时刻，选取了一个正样本和一个负样本。

步骤303、在上下文维度上，由于任意天气变量都不是孤立的，它们之间或多或少存在着一定的相关性(比如温度和湿度呈现负相关关系)，所以，使用生成式自监督的方法，基于不同天气变量特征之间的关系来对构造的缺失天气数据进行重构。这里上下文即指某天气变量与同一站点和不同站点的其他变量之间的关系。

在上下文维度上，给定T时间段内多个天气站点的天气数据，随机删除其中多个天气变量序列，并记录各个变量序列的位置索引。通过生成式自监督学习，使得重建后的天气数据与原始数据更加接近。

上下文重建自监督预训练模型G_C由上下文重建编码器和上下文重建解码器组成。上下文重建编码器和解码器都使用了Vision Transformer的结构，如图3所示，其结构包含层归一化(LayerNorm)，多头注意力机制(Multi-Head Attention)，残差连接以及多层感知机(MLP)，并且上下文重建编码器包含3层该结构，而上下文重建解码器包含1层。具体地，对于该结构，输入数据依次经过层归一化(LayerNorm)，多头注意力机制(Multi-HeadAttention)后，将输出与输入数据做第一次残差连接，随后第一次残差连接后的特征数据依次经过层归一化(LayerNorm)和多层感知机(MLP)，并将输出与第一次残差连接后的特征数据进行第二次残差连接，进而得到天气数据的上下文语义特征。对于T时间段内多个天气站点的天气数据，如图2(a)所示，以一定比例随机删除多个天气变量序列(假设图2(a)表示T时间段内在3个天气站点的温度，湿度，气压，仅保留T时间段内站点1的湿度变量序列，站点2的温度变量序列，站点3的气压变量序列，其余变量序列删除)，并重新紧密排列剩余变量序列，然后将剩余变量序列输入上下文重建编码器中得到隐空间中的特征表示。随后如图2(b)所示，使用一个共享特征嵌入作为被去除的变量序列的表示，将其按照原始顺序插入到隐空间的特征表示中(如将上述假设中站点1的温度变量序列和气压变量序列，站点2的湿度变量序列和气压变量序列以及站点3的温度变量序列和湿度变量序列按顺序以共享特征嵌入的形式插入到隐空间的特征表示中)。然后将其送入上下文重建解码器中对数据进行重构。其中，选取的删除比例大于50％，较高的删除比例能够加快模型训练，并且加大了预训练任务的难度，从而能够得到更加鲁棒，泛化性更强的上下文重建编码器。此外，上下文重建编码器的层数多于上下文重建解码器使得上下文编码器拥有更强的特征表示能力，有益于提高最终的天气预测精度。

在数据重构任务中，使用均方误差损失函数来对上下文重建模型进行优化，公式如下：

其中，

为重构天气数据。

步骤4、模型微调，具体方法如下：

如图3所示，最终的天气预测模型框架由空间编码器f_s、时间编码器f_t、上下文重建编码器f_c、拼接层以及解码器f_d组成。

具体地，将上述自监督预训练阶段得到的空间编码器、时间编码器以及上下文重建编码器迁移到最终的天气预测模型中，然后对最终的天气预测模型进行微调。

通过拼接层将三个编码器得到的特征表示相结合，得到拼接特征H：

解码器由三个依次连接的卷积层组成，卷积核大小分别为1×K(K＝F-M+1)、1×1、1×1，其中前两个卷积层的输出经过ReLU激活函数，增强非线性表达能力。拼接特征H经过解码器后，即可得到下一时间段内的天气预测值：

其中，τ代表预测时间窗口，C代表天气站点的数量，M代表目标天气变量的数量。

在天气预测模型微调阶段，使用平均绝对值误差损失函数来作为目标函数：

其中，N代表样本数量，

和

分别表示在t+j时刻的天气变量真实值和预测值。训练过程中使用Adam优化器对天气预测模型进行优化，直至损失函数收敛。

步骤5、在测试阶段，需对每一个预测值

进行反归一化处理，即

(y_min表示对应天气变量历史最小值，y_max表示对应天气变量历史最大值)，最后进行天气预测模型评估，其评价指标采用均方根误差(RMSE)和平均绝对值误差(MAE)：

其中，n表示所有预测值的数量，y_i和

则分别代表真实值和预测值。

步骤6、在使用阶段，获取多段时间内多个天气站点的气象要素观测值，采用天气预测模型，得到下一时间段内多个天气站点的天气预测值。

本实施例提供的一种基于自监督预训练的天气预测方法，充分考虑了空间维度上多个天气站点之间天气状况的相似性、时间维度上天气周期性变化带来的相似性、以及上下文角度中多个天气站点的天气变量之间的时空依赖性，使得模型表达能力得到有效提高，从而进一步提高了模型的预测能力。

本实施例提供的一种基于自监督预训练的天气预测方法，获取包含多个天气站点的历史天气数据，对数据进行缺失值填充、归一化处理，并将其处理为三维形式，使其包含时间、站点、天气变量特征三个维度；从空间、时间、上下文分别构造自监督预训练任务，其中基于不同站点之间的天气相似状况和由天气周期性变化引起的不同时间的天气相似性，通过对比自监督学习得到空间编码器和时间编码器，此外，根据天气变量之间的依赖关系，删除原始输入中部分元素，通过生成式自监督学习来重构天气数据，从而得到上下文重建编码器；将预训练得到的三个编码器迁移到最终的天气预测模型框架中，然后基于最终天气预测任务数据对整体模型进行微调。与现有技术相比，本发明将自监督预训练的思想融入到天气预测任务中，充分利用了天气数据空间、时间、上下文三个角度的特性，从而进一步提高了天气预测的精度。

实施例二

本实施例提供了一种基于自监督预训练的天气预测系统，其具体包括：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于自监督预训练的天气预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于自监督预训练的天气预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。