CN117290684A

CN117290684A - 基于Transformer的高温干旱天气预警方法、电子设备

Info

Publication number: CN117290684A
Application number: CN202311267216.XA
Authority: CN
Inventors: 张建川; 王进; 赵宇阳; 范海荣; 孙子尚
Original assignee: Nanjing Tuoheng Aviation Technology Co ltd
Current assignee: Nanjing Tuoheng Aviation Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-26
Anticipated expiration: 2043-09-27

Abstract

本发明公开一种基于Transformer的高温干旱天气预警方法，包括采集各台站的日观察数据，所述日观察数据包括气象要素、地理空间要素和时间要素；对所述日观察数据进行归一化处理和数据缺失插值处理；将预处理后的日观察数据与自当日起前T1天预处理后的日观察数据一并输入至模型，得到自当日起T2天高温和干旱两种天气类别的预测结果；根据所述预测结果对可能出现的高温干旱天气进行预警。进一步本发明还公开一种实施上述方法的电子设备。本发明中考虑多种因素较多，联合高温和干旱的共同预测，二者共享模型提取的特征，有利于充分挖掘高温和干旱之间的内在联系，有助于高温干旱天气的预测结果的准确性和稳定性。

Description

基于Transformer的高温干旱天气预警方法、电子设备

技术领域

本发明涉及气象数据处理技术领域，具体涉及一种基于Transformer的高温干旱天气预警方法、电子设备。

背景技术

气象千变万化且变化过程极其复杂，叠加厄尔尼诺现象的影响，近年来全球气温飙升、破坏性天气和极端气象出现频率明显加快，给工农业生产带来较大的影响，如我国夏季长三角地区持续高温灼热导致农田缺墒，土壤水分减少，伤害稻谷作物、经济林果作物的生长，造成了产量降低。因此，及时准备的高温干旱预警尤为重要。

现有的天气预报主要有两种方式进行，即基于大气环流的物理学气象方程的数值模型和基于历史气象数据的统计分析。其中，基于大气环流的物理学气象方程的数值模型是根据严格的物理学定律，能够较为可靠地模拟气象过程，但受限于初始的气象条件信息密度、计算资源和模拟的时间尺度，数值预报仅能在短期内达到较高的准确度，长期的预报则准确度较低。如预测时间为3天内，数值预报的精度可以达到95％，随着预测时间的增加准确度迅速降低，当预测时间为7天时，准确度就会变为60％，预测时间为10天，准确度则会迅速的降低为40％，这样的精度难以满足居民生活、工业/农业生产需求。

基于历史气象数据的统计分析方法更多的侧重总结气象学各要素的历史规律，从而对未来的天气进行预报。经典的统计方法主要以自回归模型为主，如自回归差分移动平均模型(ARIMA)是对平稳的日观察数据做出总结和回归，但受限于模型的表达能力，当气象数据变化较为剧烈或者是突变时候，模型过拟合的误差较大、对实际复杂多变的气象环境适应性较差。

发明内容

为解决上述问题，本发明公开一种基于Transformer的高温干旱天气预警方法、电子设备，可通过收集待预测日期之前的一定天数的气象、地理和时间要素，预处理后输入到目标Transformer神经网络模型，得到未来一段时间高温和干旱情况的概率，并根据当前的天气状况对可能出现的高温干旱天气进行预警，由此提升工农业对灾害的应对能力。

本发明的具体技术方案如下：

本发明的第一方面提供一种基于Transformer的高温干旱天气预警方法，其特征在于，包括以下步骤：

采集各台站的日观察数据，所述日观察数据包括气象要素、地理空间要素和时间要素；

对所述日观察数据进行预处理，所述预处理包括归一化处理和数据缺失插值处理；

将预处理后的日观察数据与自当日起前T1天预处理后的日观察数据一并输入至目标Transformer神经网络模型，得到自当日起T2天高温和干旱两种天气类别的预测结果；

根据所述预测结果对可能出现的高温干旱天气进行预警。

作为一种可选方案，所述目标Transformer神经网络模型的训练过程包括：

步骤a1，根据需求收集相关台站近30年来所有的日观察数据；

步骤a2，对收集到的日观察数据进行预处理；

步骤a3，对预处理后的日观察数据采用固定长度的窗口采样，设定步长和窗口长度，设定单个样本的输入数据维度为M*N，M表示采样长度，N表示气象、地理、时间要素的维度之和；

步骤a4，制作日观察数据对应的标签，所述标签包括高温和干旱两种，其中，对干旱的定义采用MCI指数作为分类依据，依次分为无旱、轻旱、中旱、重旱和特旱五类；对高温事件预警信号分四级，分别以常温、黄色、橙色和红色表示，具体等级根据各行政区域规定的高温等级阈值确定；干旱和高温采用独热编码方式，即单一数据输入的标签分别用长度5和4的向量表示；

步骤a5，将预处理后的日观察数据按预设比例划分为训练数据和验证数据；

步骤a6，利用训练数据及其标签对构建的Transformer神经网络模型进行训练，每迭代一轮后利用验证数据及其标签计算损失函数，在满足预设条件后停止训练，得到目标Transformer神经网络模型。

作为一种可选方案，所述Transformer神经网络模型包括切片操作模块、线性投影拉平层、Transformer编码模块和多层感知机模块；

所述切片操作模块被构造为：使用P×P大小的切片将M×N维的输入数据切分成C个切片，C＝M/P*N/P；

所述线性投影拉平层被构造为：将所述切片转换为一维特征向量，C个切片构成C×Q的二维矩阵，对所述二维矩阵重采样以固定每个切片的长度为Y，同时嵌入每个切片的位置信息，最终得到维度大小为(E,F)的输入特征矩阵z₀，令E＝C+1，F＝Y+1，z₀的表达公式如(7)：

式中，x_class表示待学习的分类特征向量，表示第一个切片，/>表示第C个切片，E_pos表示可学习的位置信息，E_u表示对切片做重采样操作的矩阵；

所述Transformer编码模块被构造为：包括多个并列的Transfomer层，每个Transformer层由多头自注意力层构成，多头自注意力层相当于H个不同自注意力权重矩阵的集成，输入特征矩阵z₀通过H个不同的自注意力权重矩阵计算得到维度大小为(E,F)的输出特征矩阵z₁；

所述多层感知机模块被构造为：提取输出特征矩阵z₁中用于分类的特征z₁[0]并用z₃表示；通过多层感知机获取多重不同的空间、时间尺度的特性，输出用于分类或者回归的区别性特征z₄；将输出特征z₄转化为概率分布表示，转化后的结果R是长度为类别数目的向量；其中，z₄的表达公式如(11)：

z₄＝MLP(z₃) (11)

式中，MLP表示多层感知机；

其中，R的计算公式如下(13)：

R＝softmax(z₄) (13)

式中，softmax表示将z₄转化为概率分布的操作。

作为一种可选方案，所述Transformer编码模块的计算过程具体包括：

步骤b1：由输入特征计算最核心的内容，即查询矩阵Q、键值矩阵K、特征值矩阵V；

[Q,K,V]＝transpose(reshape((z₀×U_qkv)) (8)

式中，U_qkv表示H个自注意头的Q、K、V的整体变换矩阵，其维度大小为(F,F*3)；reshape表示调整维度大小操作；transpose表示交换维度操作；z₀×U_qkv的矩阵维度是(E，F*3)，reshape操作之后维度是(E,3,H,F/H)，transpose操作之后维度变为(3,E,H,F/H)，得到的Q、K、V的矩阵维度大小都是(E,H,F/H)；

步骤b2：由Q、K计算自注意力权重矩阵A，如公式(9)：

式中，自注意力权重矩阵A的维度是(H,E,E)，softmax表示将矩阵的行向量实数转换为表示概率分布的操作；

步骤b3：由自注意力权重矩阵A计算输出特征矩阵z₁，参见计算公式(10)：

z₁＝reshape(transpose(A×V)) (10)

式中，A×V得到的特征矩阵维度是(H，E，F/H)；transpose操作后是(E，H，F/H)；reshape操作后得到的输出特征矩阵z₁，其矩阵维度是(E,F)。

作为一种可选方案，利用验证数据及其标签计算损失函数，具体包括：

总损失函数值lossAll的计算公式(14)为：

式中，T表示预测总的天数，i表示预测的第几天，loss_i、K_i分别表示第i天预测结果的损失函数值和对应的权重；

其中，loss_i采用多类别交叉的方法计算，公式如(16)：

式中，和/>分别表示第i天的第j类类别预测结果和真实标签的值，cls表示预测结果类别的数目。

作为一种可选方案，所述归一化处理包括：

采用公式(1)对日观察数据中的气象要素进行归一化处理：

式中，x_p表示归一化处理后的值，x表示某一气象要素的原始值，μ、δ分别表示这一要素的平均值和标准差；

采用公式(2)对日观察数据中的时间要素和地理空间要素进行归一化处理：

其中，对时间要素进行处理时，年份最小值和最大值分别设为1950和2050；月的最大值与最小值为0和12；日的最小值和最大值分别为0和30；对地理空间要素进行处理时，经度的最大值与最小值分别是180和-180；纬度的最大值与最小值分别是90和-90；高程的最大值与最小值分别根据实际采集到的高程数据判定。

作为一种可选方案，所述数据缺失插值处理采用空间上反距离插值和时间上三次样条插值的混合插值方法进行数据补全，其中，在空间上，按公式(3)插值，即用空间上周围已知点的数据加权求和来估计未知点的值，权重取决于距离的倒数；

式中，表示被空间插值的元素，n表示周围相邻台站的数目，z_i表示缺失数据的台站周围第i个台站对应的该气象要素的值，λ_i表示缺失数据的台站周围第i个台站的权重参数，与距离的平方成反相关关系，计算方法如公式(4)：

其中，

式中，将被插值的台站定义为台站A；台站A周围的第j个台站定位为台站B，d_i表示被插值台站A与其周围的第i个台站B距离，d_j表示第j个台站B距离被插值台站A的距离；一旦被插值的台站确定，C_d就是常数；

在时间上，采用三次函数插值的方法获取，即公式(5)：

式中，表示被时间插值的元素，t表示插值时间，式(5)有a、b、c、d四个未知数，因此采用t时刻前后各两个时刻的数据构建四个方程，求解出a、b、c、d；

最后，缺失的数据由空间插值结果和时间插值结果/>加权求和得到，如公式(6)：

式中，α表示空间权重，由周围台站分布情况和数据变化情况决定，根据实际取经验值。

作为一种可选方案，根据所述预测结果对可能出现的高温干旱天气进行预警，具体包括：

所述预测结果包括高温类别向量和干旱类别向量，分别用于表示高温和干旱所包含的各类别出现的概率；在所述向量中找到最大概率值对应的天气类别；

在所述类别触发高温和/或干旱天气时进行预警。

作为一种可选方案，所述气象要素包括气压、最高气温、平均气温、地表温度、降水量、蒸散指数、平均相对湿度、最小相对湿度、日照时间、平均风速；所述地理空间要素包括经度、纬度和高度；所述时间要素包括年、月、日。

本发明的第二方面公开一种电子设备，其包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现本发明第一方面或其任一项可选方案所述的基于Transformer的高温干旱天气预警方法的步骤。

本发明具有如下有益效果：

(1)本发明中输入至Transformer神经网络模型设计考虑的因素较多，不仅包括气象要素，还有时间要素和空间要素，有助于对高温干旱天气的预测。

(2)本发明联合高温和干旱的共同预测，二者共享模型提取的特征，有利于充分挖掘高温和干旱之间的内在联系。

(3)本发明采用Transformer神经网络模型有利于同时构建高温干旱在各要素特征之间的联系以及时间上的联系，有利于提高结果预测稳定性和准确度。

(4)本发明减少了求解物理所需要的的大量的数值计算，具有较高的时间效率。

附图说明

图1为基于Transformer的高温干旱天气预警方法的流程示意图；

图2为Transformer层的结构示意图；

图3为多层感知机示意图；

图4为模型损失函数示意图。

具体实施方式

为了对本发明实施例中的技术方案进行更加清楚、完整地描述，下面将结合本发明实施例和附图，对本发明的技术方案进行介绍。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1至图4所示，实施例1中公开一种基于Transformer的高温干旱天气预警方法，主要包括以下步骤：

步骤1，采集各台站的日观察数据，并对日观察数据进行预处理，其中的预处理包括归一化处理和数据缺失插值处理。

步骤1具体包括以下子步骤：

步骤1.1，数据采集

根据需要预测的区域采集指定台站的日观察数据，日观察数据主要包括气象、地理空间和时间这三方面要素。结合表1所示，其中：气象要素主要包括气压、最高气温、平均气温、地表温度、降水量、蒸散指数、平均相对湿度、最小相对湿度、日照时间、平均风速；地理空间要素包括经度、纬度和高度；时间要素包括年、月、日。

表1日观察数据示例

步骤1.2数据预处理

考虑到各要素类型不同，数量动态范围差异大，可采用公式(1)对数据进行归一化处理：

式中，x_p表示归一化处理后的值，x表示某一气象要素的原始值，μ、δ分别表示这一要素的平均值和标准差。

例如，气象要素中的平均气温为17.3，这一要素的平均值为28，方差为15，则数据归一化过程表示为：

除气象要素外，地理空间要素和时间要素对天气的影响也至关重要。其中，时间中的月、日属于周期性的，同样也需要做线性归一化处理，归一化处理公式如下：

其中，年份最小值和最大值分别设为1950和2050；月的最大值与最小值为0和12；日的最小值和最大值分别为0和30。

例如，2022年1月3日归一化处理如下：

年：

月：

日：

由于地理空间的三种要素的取值范围是固定的，因而可以采用和时间要素一样的线性归一化处理方法。如公式(2)中所示，经度的最大值与最小值分别是180和-180；纬度的最大值与最小值分别是90和-90；高程的最大值与最小值分别根据实际采集到的高程数据判定。

可以理解的，实际中，因为观测台站仪器故障、天气或者技术原因，日观察数据中会存在某些气象要素值缺失的问题，进一步，还可对于缺失的数据采用空间上反距离插值和时间上三次样条插值的混合插值方法进行数据补全。具体如下：

在空间上，可按公式(3)插值，即用空间上周围已知点的数据加权求和来估计未知点的值，权重取决于距离的倒数(或者倒数的平方)。那么，距离近的点，权重就大；距离远的点，权重就小。

式中，表示被空间插值的元素(即某一台站缺失的某一气象要素的空间插值结果)，n表示周围相邻台站的数目，z_i表示缺失数据的台站周围第i个台站对应的该气象要素的值，λ_i表示缺失数据的台站周围第i个台站的权重参数，与距离的平方成反相关关系，具体计算方法如公式(4)：

其中，

式中，为方便表述把被插值的台站定义为台站A；台站A周围的第j个台站定位为台站B，d_i表示被插值台站A与其周围的第i个台站B距离，d_j表示第j个台站B距离被插值台站A的距离。一旦被插值的台站确定了，C_d就是常数。

在时间上，某一个台站某日某个要素的数据缺失，该要素值可以由前后时间的数据插值获取。为简单起见，可采用三次函数插值的方法获取，即公式(5)：

式中，表示被时间插值的元素(即某一台站缺失的某一时间要素的时间插值结果)，t表示插值时间，式(5)有a、b、c、d四个未知数，因此采用t时刻前后各两个时刻的数据构建四个方程，求解出a、b、c、d。

例如，2023年8月20日，江宁台站的气压数据缺失，那么缺失的数据从空间上可以由周围镇江、马鞍山、扬州等地台站的气压数据插值获取，即从空间上插值；从时间上也可以由2023年8月18日、2023年8月19日、8月21日、8月22日四天江宁台站气压数据插值获取，即从时间上插值。

式中，α表示空间权重，在实际使用中α由周围台站分布情况和数据变化情况决定，可根据实际取经验值，通常如果昨天的数据和今天的数据相比，数据变化较为平缓，且台站分布较为稀少，则α接近为1，反之α接近为0。

步骤2，将预处理后的日观察数据输入至训练完成的目标Transformer神经网络模型，得到高温和干旱两种天气类别的预测结果。

输入目标Transformer神经网络模型是预处理后的日观察数据及其对应的标签，输出的是天气类别的预测结果，包括高温和干旱两种类别，例如，输出高温类别(0,0,0,0.9,0.1)和干旱类别(0,0,0.9,0.1)。

对目标Transformer神经网络模型的训练过程主要包括如下步骤：

步骤a1，根据需求收集相关台站近30年来所有的日观察数据。

步骤a2，采用步骤1所述的方法对收集到的日观察数据进行预处理。

步骤a3，对预处理后的日观察数据，采用固定长度的窗口采样，通常设定步长为1天，考虑到气象变化的规律，窗口的长度通常设置为30天。设定单个样本的输入数据维度为M*N，M表示采样长度，通常取30天；N表示气象、地理、时间要素的维度之和，如表1所示，通常为16个维度。

步骤a4，数据采样后需要对数据制作对应的标签。高温干旱事件预测包括对高温和干旱的双重预测，其中，对干旱的定义通常采用MCI指数作为分类依据，依次分为无旱、轻旱、中旱、重旱和特旱五类；对于高温事件预警信号的一般分四级，分别以常温、黄色、橙色和红色表示，具体的等级根据各行政区域规定的高温等级阈值确定。干旱和高温灾害都可采用独热编码方式，即单一数据输入的标签分别用长度5和4的向量表示。例如，某一天的天气为重旱、橙色高温，则当天对应的标签包括(0，0，0，1，0)和(0，0，1，0)。

步骤a5，将预处理后的日观察数据根据预设比例划分为训练数据和验证数据。例如，验证数据占比为10％。可以理解的，训练和验证数据通常为同一批数据，有着相同的数据分布情况。

其中，Transformer神经网络模型主要包括切片操作模块、线性投射拉平层、Transformer编码模块和多层感知机模块这四部分。

对于切片操作模块：Transformer结构是需要序列化处理的，模型输入的是M×N维数据，其中：M是时间方向的长度，根据实际需求一般是取预测的天数，例如，M设置为30天；N指的是数据的维度，即气象、地理、时间要素的维度之和，例如，气象要素的气压、最高气温、平均气温、地表温度、降水量、蒸散指数、平均相对湿度、最小相对湿度、日照时间、平均风速，地理空间要素的经度、纬度和高度，时间要素的年、月、日，共计16个维度。

输入数据是首先需要使用P×P大小的切片将输入数据切分成C个切片，相当于在时间维度上将M等分，间隔为P，分成了M/P段；在特征维度上将N等分，间隔为P，分成了N/P段，那么最终的输入数据被切成了C个切片。C＝M/P*N/P，每一个切片即是一个特征，C个切片就是C个特征。

对于线性投射拉平层：将C个切片输入到线性投射拉平层，通过线性投射拉平层将每个切片的二维数据转为P*P＝Q的一维特征向量，最终C个切片构成了C×Q的二维矩阵。二维矩阵C×Q的长度C＝M/P*N/P，受到切片尺寸，数据的时间长度、特征维度三个参数的影响。为了避免模型受到切片尺寸等参数的影响，可对这个二维矩阵重采样(重采样是指对原有的离散数据组成的序列按所需的间隔重新采样)，使得单个切片的长度固定为Y，同时考虑到每个切片的位置属性对目标的类别存在影响，线性投射拉平层还需要添加一个位置信息到切片特征中，最终得到的输入特征矩阵z₀的维度大小为(C+1)×(Y+1)，令E＝C+1，F＝Y+1，下文用E×F表示输入特征矩阵的维度，z₀的表达公式如(7)：

式中，x_class表示Transformer神经网络模型中待学习的分类特征向量，表示第一个切片，/>表示第C个切片，E_pos表示可学习的位置信息，E_u表示对切片做重采样操作的矩阵。其中，待学习的分类特征向量，指的是模型组成的一个部分，在训练的过程不断迭代变化，模型停止训练后不再变化。可学习的位置信息，表示该切片在原始整体二维数据中的位置，例如，切成了16*16个切片，该切片是第100个切片。

对于Transformer编码模块：Transformer编码模块包括多个串连的Transfomer层，每个Transformer层又由多头自注意力层构成，这也是Transformer编码结构最核心的内容。模块的输入输出都是相同维度大小的特征，z₀表示从线性投射拉平层得到的输入特征矩阵，用z₁表示输出特征矩阵。多头自注意力层相当于H个不同自注意力权重矩阵的集成，当数据z₀被输入，会通过H个不同的自注意力权重矩阵计算得到特征矩阵z₁。

Transformer编码模块中详细的计算过程如下：

步骤b1：由输入特征计算最核心的内容，即查询矩阵Q、键值矩阵K、特征值矩阵V。

[Q,K,V]＝transpose(reshape((z₀×U_qkv)) (8)

式中，z₀表示输入特征矩阵，维度大小为(E,F)；U_qkv表示H个自注意头的Q、K、V的整体变换矩阵，是模型需要通过大量数据学习的权重矩阵，其维度大小为(F,F*3)；reshape表示调整矩阵的维度大小操作(即调整维度大小操作)；transpose表示交换矩阵的维度操作(即交换维度操作)。

其中，z₀×U_qkv的矩阵维度是(E，F*3)，对其调整矩阵维度(reshape)之后的维度是(E,3,H,F/H)，紧接着做交换维度操作(transpose)变为(3,E,H,F/H)，因此得到的Q、K、V的矩阵维度大小都是(E,H,F/H)。

步骤b2：由Q、K计算自注意力权重矩阵A，如公式(9)。

式中，A表示自注意力头的权重矩阵，维度是(H,E,E)，F表示特征的维度，softmax表示把矩阵的行向量实数转换为表示概率分布的操作。

z₁＝reshape(transpose(A×V)) (10)

式中，A×V得到的特征矩阵维度是(H，E，F/H)；transpose操作后是(E，H，F/H)；reshape操作后得到的输出特征矩阵z₁，其矩阵维度是(E,F)，与输入特征矩阵z₀的维度保持一致。

对于多层感知机模块：Transformer编码模块的输出特征矩阵z₁的维度是(E,F)，取出其中用于分类的特征z₁[0]，并用z₃表示该特征，其一维向量长度为F，该特征需要经过多层感知机才能获取多重不同的空间、时间尺度的特性，有利于提高模型整体的预测精度，其计算过程如公式(11)，如此重复多次即可得到用于分类或者回归的区别性特征z₄，考虑到计算量和精度，实际中可使用3层。

z₄＝MLP(z₃) (11)

式中，MLP表示多层感知机。

MLP表示多层感知机，每一层有相邻两列神经元构成，第一列和倒数第二列分别是输入特征z₃和输出特征z₄，中间列表示中间特征，由若干个神经元构成，每个神经元都与另外一列的所有神经元相连；每一层由一个全连接层表示，由输入和输出的两列神经元构成。多层感知机可以表示为：

式中，分别表示中间第i层的输入特征、输出特征；Wⁱ表示中间第i层输的权重矩阵，为待学习的矩阵。

最后，将输出特征z₄采用概率分布表示，转化结果用R表示，计算公式如下：

R＝softmax(z₄) (13)

式中，softmax表示将z₄转化为概率分布的操作，转化后的结果R是长度为类别数目的向量，例如，对干旱预测的结果是(0.1,0.1,0.1,0.2,0.5)，该向量长度为5。

Transformer神经网络模型训练过程中，可通过输出的结果与对应标签值计算损失函数，从而迭代优化模型里的参数。

对于高温天气的预测，包括了多重时间尺度，预测结果包括未来1,2,3…7天的结果。不同的时间预测会有的不同的精度，即提前3天的预报应当比提前7天的预报更加准确。损失函数计算模块的输入为多层感知机的输出结果R以及对应的标签，为实现上述预测效果，就要保证模型在训练的时候，能够给予不同时间尺度不同的关注程度。因此，本发明采用线性权重加权求和的方法计算总损失函数值lossAll，具体计算如公式(14)：

式中，T表示预测总的天数(例如，7天)，i表示预测的第几天，loss_i、K_i分别表示第i天预测结果的损失函数值和对应的权重。

其中，loss_i采用多类别交叉的方法计算，公式如(16)：

式中，和/>分别表示第i天的第j类类别预测结果和真实标签的值；cls表示预测结果类别的数目，如干旱的预测时，cls是5。

在Transformer神经网络模型训练时，将训练数据分批次输入模型，每一轮训练后通过训练数据对应的标签计算损失函数并对模型参数进行优化，待数据迭代训练完成并更新模型参数后，输入验证数据及其对应的标签值来计算总损失函数，当验证数据的总损失函数值不再降低或者训练轮次达到预先设置的次数时，训练停止，此时对应的模型即目标Transformer神经网络。

步骤3，根据目标Transformer神经网络模型输出的预测结果对未来一段时间可能出现的高温干旱天气进行预警。

在实际应用时，对各地台站实时采集的日观察数据，将预处理后的日观察数据连同之前29天日预处理后的数据一起输入到目标Transformer神经网络模型中，提取对未来气象预报的区别性特征，对未来一段时间(通常为7天)的天气状况给出预报。模型输出的某一天的结果包括高温和干旱两个向量，分别用于表示高温和干旱给类别的概率，在两个向量中找到最大概率值并输出其对应的类别，当相关指标触发高温干旱情况时，及时给出预警。例如，未来某一天的预测结果为温度预测结果为(0.8,0.2,0,0)，干旱预测结果为(0.7,0.2,0.1,0,0)，分别取出最大概率类别为常温和无旱，因此当天的天气状况为常温-无旱。如此反复可通过模型得到未来七天的预测结果，例如，未来七天的预测结果分别是常温-无旱、常温-无旱、常温-无旱、黄色高温-无旱、黄色高温-无旱、橙色高温-轻旱、橙色高温-轻旱，则会给出在未来第4,5,6,7天会出现高温天气，未来的第6,7天会出现轻旱天气的预警。

进一步的，实施例2提供了一种基于Transformer的高温干旱天气预警电子设备，主要包括：存储器和处理器，存储器用于存储计算机程序；处理器用于执行计算机程序时可实现实施例1所述的基于Transformer的高温干旱天气预警方法的步骤，具体过程在此不做赘述。

最后需要说明的是，尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于Transformer的高温干旱天气预警方法，其特征在于，包括以下步骤：

根据所述预测结果对可能出现的高温干旱天气进行预警。

2.如权利要求1所述的高温干旱天气预警方法，其特征在于，所述目标Transformer神经网络模型的训练过程包括：

步骤a1，根据需求收集相关台站近30年来所有的日观察数据；

步骤a2，对收集到的日观察数据进行预处理；

3.如权利要求1或2所述的高温干旱天气预警方法，其特征在于，所述Transformer神经网络模型包括切片操作模块、线性投影拉平层、Transformer编码模块和多层感知机模块；

式中，x_class表示待学习的分类特征向量，表示第一个切片，/>表示第C个切片，E_pos表示可学习的位置信息，E_u表示对切片做重采样操作的矩阵；所述Transformer编码模块被构造为：包括多个并列的Transfomer层，每个Transformer层由多头自注意力层构成，多头自注意力层相当于H个不同自注意力权重矩阵的集成，输入特征矩阵z₀通过H个不同的自注意力权重矩阵计算得到维度大小为(E,F)的输出特征矩阵z₁；

z₄＝MLP(z₃) (11)

式中，MLP表示多层感知机；

其中，R的计算公式如下(13)：

R＝softmax(z₄) (13)

式中，softmax表示将z₄转化为概率分布的操作。

4.如权利要求3所述的高温干旱天气预警方法，其特征在于，所述Transformer编码模块的计算过程具体包括：

[Q,K,V]＝transpose(reshape((z₀×U_qkv)) (8)

步骤b2：由Q、K计算自注意力权重矩阵A，如公式(9)：

z₁＝reshape(transpose(A×V)) (10)

5.如权利要求2所述的高温干旱天气预警方法，其特征在于，利用验证数据及其标签计算损失函数，具体包括：

总损失函数值lossAll的计算公式(14)为：

其中，loss_i采用多类别交叉的方法计算，公式如(16)：

6.如权利要求1至5任意一项所述的高温干旱天气预警方法，其特征在于，所述归一化处理包括：

采用公式(1)对日观察数据中的气象要素进行归一化处理：

7.如权利要求1至5任意一项所述的高温干旱天气预警方法，其特征在于，所述数据缺失插值处理采用空间上反距离插值和时间上三次样条插值的混合插值方法进行数据补全，其中，在空间上，按公式(3)插值，即用空间上周围已知点的数据加权求和来估计未知点的值，权重取决于距离的倒数；

其中，

在时间上，采用三次函数插值的方法获取，即公式(5)：

8.如权利要求1至5任意一项所述的高温干旱天气预警方法，其特征在于，根据所述预测结果对可能出现的高温干旱天气进行预警，具体包括：

在所述类别触发高温和/或干旱天气时进行预警。

9.如权利要求1至5任意一项所述的高温干旱天气预警方法，其特征在于，所述气象要素包括气压、最高气温、平均气温、地表温度、降水量、蒸散指数、平均相对湿度、最小相对湿度、日照时间、平均风速；所述地理空间要素包括经度、纬度和高度；所述时间要素包括年、月、日。

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至9任一项所述的基于Transformer的高温干旱天气预警方法的步骤。