CN112862090B

CN112862090B - 一种基于深度时空神经网络的气温预报方法

Info

Publication number: CN112862090B
Application number: CN202110087773.8A
Authority: CN
Inventors: 吕之豪; 潘斌; 谢仲铭; 王健禹; 王昊辰
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2023-01-31
Anticipated expiration: 2041-01-22
Also published as: CN112862090A

Abstract

本发明提供了一种基于深度时空神经网络的气温预报方法，基于带有社会池化层的长短期记忆神经网络(Social LSTM)，构建时空结合的深度学习模型用于气温预报：获取待预报区域历史气温数据，预处理为可输入模型的时间序列样本并划分训练集测试集；建立模型，其特征在于将每个子区域分别建立长短期记忆网络(LSTM)单元，将上一时刻LSTM单元输出的隐藏状态整合为社会张量，与下一时刻温度数据合并输入LSTM单元，针对网格；设定模型超参数，使用训练集训练模型，根据模型在测试集上的预测误差调整超参数设置；最终，将待预报时间之前的一段时间内的温度数据调整为适配模型输入的温度序列，输入模型得到预报结果。

Description

一种基于深度时空神经网络的气温预报方法

技术领域

本发明涉及气象预报领域，尤其是涉及一种基于深度时空神经网络的气温预报方法。

背景技术

气温是天气预报中最重要的要素之一。由于气温是连续的数值型变量，人工分析难以给出精确的预测，传统的气温预报依靠人工经验判断与求解大气动力学方程的数值预报方法相结合，其缺点在于：人工分析需要对大量气象数据做人工标注；求解方程对计算机性能要求高，在时间和空间的分辨率要求较高时，预测的速度慢且短时临近的预测效果不理想。相比传统方法，端到端的神经网络模型对原始数据兼容和利用能力强，端到端的模型使用便捷，推理速度快(完善的模型在经过优化后，预测速度可以达到秒级)。

现有的气温预报神经网络模型分为循环网络，卷积网络和卷积循环结合的混合网络三种，气温预报是明显具有空间相关性的时间序列预测问题，上述三种模型也可解释为以时间信息为主、以空间信息为主、时空信息融合的神经网络。

以长短期记忆神经网络(LSTM)为代表的循环网络，将上一时间点计算得到的神经网络隐含层输入下一时间点，使网络具有对历史数据的“记忆”能力，能够充分挖掘间信息，但对空间信息的缺乏挖掘能力，尤其难以处理网格的气象数据。

卷积神经网络(CNN)中的卷积和池化操作能够高效挖掘空间信息，但对于时间序列的预测较差，现有的技术，如将每一个时刻的气象网格数据视为图像的一个通道、使用因果卷积的序列到序列(Seq2Seq)模型等方法，在较长的时间序列上效果不好，没有充分利用历史数据。

混合网络一般是多层结构，现有的模型有：CNN-LSTM模型只是简单耦合了两层网络，没有深度结合，无法有效挖掘时间信息与空间信息之间的关联；卷积长短期记忆网络(ConvLSTM)将LSTM中全连接运算替换为卷积，使其支持对二维的输入并能够捕捉空间信息，但是需要采用两层以上的ConvLSTM堆叠为自编码器才能取得较好的预测效果，对此一些改进的模型，在ConvLSTM层后引入多层的注意力机制(如谷歌的MetNet)，或采用更多层的LSTM和CNN单元堆叠，虽然提升了预测精度，但是网络结构过于复杂，使模型的时间和空间复杂度增大，导致实际应用时对计算机硬件的要求更高，增加模型部署的成本。

综上所述，研究一种高效的深度时空神经网络，能够同时利用时间和空间信息并挖掘二者联系，以提升气温预报精度，有十分重要的意义。

发明内容

本发明要解决的技术问题是针对现有技术存在的不足，提供一种基于深度时空神经网络的气温预报方法，提高预测精度的同时保证模型的预测速度和内存开销，并且能够适配不同形式的输入数据(地面气象观测站点数据、小规模气温网格数据、遥感图像)。

为此，本发明采用如下的技术方案：改进朴素LSTM模型，提出一种基于带有社会池化层的长短期记忆网络(Social LSTM)的深度时空结合的神经网络模型，先对各个预测区域建立LSTM单元，再通过在捕捉时序信息的LSTM单元中嵌入整合空间信息的社会张量(Social Tensor)，高效地实现时空信息的深度融合，并且针对不同的输入格式对模型结构进行微调。

本发明提供一种基于深度时空神经网络的气温预报方法，其特征在于包括以下具体步骤：

步骤1：数据预处理。针对需要预报的目标区域，用该区域历史气温数据，建立符合适合LSTM输入格式的时间序列数据集，将数据集划分为训练集和测试集，具体方法为：

步骤11：规定数据集中每个输入样本的温度序列的长度，即时间步长(Timestep，下简记为ts)，每个样本的输入为连续t个单位时间的温度序列，标签为紧邻输入序列之后ts个单位时间的温度序列；若温度数据为气象站点温度，设待预报的目标区域中气象站点数为N，则每个样本的输入和标签维度均为ts×N，若温度数据为温度网格或遥感图像，设待预报的目标区域长宽为H、W，则每个样本的输入和标签维度均为ts×H×W。

步骤12：将样本按照输入温度序列的第一个时间点的真实日期升序排序得到数据集全体，按一定比例划分为两部分，前一部分为训练集，后一部分为测试集。

步骤2：建立模型。根据数据集格式(气象站点、小规模温度网格、遥感图像)建立不同的Social LSTM模型，参照图1和图2，具体设计如下：

步骤21：对于空间离散的气象站温度数据，使用Embedding嵌入层变换输入，样本输入的温度序列记为

为t时刻站点j的温度，具体设计如下：

步骤211：设定LSTM隐含层尺寸Size_h，对每个站点，将社会张量

细胞状态

隐含状态

均初始化为Size_h维的零张量。

步骤212：从t＝1时刻开始的每一个时刻t，对于每一站点j，计算社会张量，按照一个固定的距离公式(如欧式距离或曼哈顿距离)，找到离当前站点最近的K个站点，将其对应t-1时刻的隐含状态相加，再经过Embedding嵌入层变换得到t时刻站点j的社会张量

计算公式为

其中W_se，b_se为Size_h×Size_h和Size_h×1权值矩阵，ReLU为激活函数ReLU(x)＝max{0，x}，Dropout特指神经网络中的Dropout操作，在训练过程中随机选择一些神经元不参与训练。

步骤213：类似地，对t时刻站点j的输入温度

做Embedding嵌入层的变换，

其中W_te，b_te为Sizeh×1的权值矩阵，故

也是Size_h维的张量，ReLU，Dropout与步骤212中定义相同。将

与

直接拼接得到t时刻站点j输入LSTM单元的输入张量

它是2Size_h维的。

步骤214：建立输入尺寸2Size_h，隐含层尺寸Size_h的LSTM单元，计算公式如下

其中

为t时刻站点j的隐含状态和细胞状态，

为t-1时刻站点j的隐含状态和细胞状态，对于t＝1时，

和

即为

和

W_ii，W_if，W_ig，W_io为2Size_h×Size_h权值矩阵，W_hi，W_hf，W_hg，W_ho为Size_h×Size_h的权值矩阵，b_ii，b_if，b_ig，b_io，b_hi，b_hf，b_hg，b_ho为Size_h×1的权值矩阵，tanh为双曲正切函数，σ为Sigmoid函数，⊙为Hadamard积，即张量的按位乘法。

步骤215：通过全连接层得到t时刻输出

其中W_yh，b_yh为Size_h×1和1×1权值矩阵，

即为模型输出。

步骤22：对于H×W的小规模温度网格数据平均划分为若干区域，每个区域下采样转化为一个下采样点建立带社会张量的长短期记忆神经网络模型。将网格划分为L×L个小区域，将每个小区域视为一个气象站点，即N＝L²，每个小区域取平均池化、最大池化以及中心点温度，下采样为

为t时刻区域(i，j)的下采样点的维度为3的特征张量，进行步骤211-215，修改步骤212，直接将所有小区域的隐含层状态相加(即K＝L²)，最终得到的输出视为每个小区域整体温度的预报。

步骤23：对于H×W的遥感图像，建立带有社会张量的卷积长短期记忆网络(Social-ConvLSTM)，样本输入的图像序列记为

具体设计如下：

步骤231：将图像划分为L₁×L₂个小区域，使每个区域均为H₁×W₁的矩形，此时输入图像序列为

设定ConvLSTM的卷积核大小为Kernel_h×Kernel_w，设定隐含层通道数为Channel，将每个小区域的细胞状态

隐含状态

均初始化为Channel×H₁×W₁维的零张量。

步骤232：从t＝1时刻开始的每一个时刻t，将所有小区域的隐含状态张量按空间相对位置拼接为Channel×(L₁·H₁)×(L₂·W₁)的张量S′_t，经过二维卷积变换为1×H₁×W₁的社会张量S_t。

步骤233：将t时刻的小区域

与社会张量合并为2×H₁×W₁的输入张量

步骤234：建立输入为2×H₁×W₁，隐含状态维度为Channel×H₁×W₁的ConvLSTM，公式如下，

其中

为t时刻区域(i，j)的隐含状态和细胞状态，

为t-1时刻区域(i，j)的隐含状态和细胞状态，对于t＝1时，

和

即为

和

W_ii，W_if，W_ig，W_io，W_hi，W_hf，W_hg，W_ho为Channel×2×Kernel_h×Kernel_w的卷积核，b_ii，b_if，b_ig，b_io，b_hi，b_hf，b_hg，b_ho为Channel×Kernel_h×Kernel_w的权值矩阵；*为带有填充(Padding)的卷积，横向填充大小为

纵向填充大小为

σ，tanh，⊙定义与步骤214相同。

步骤235：通过1×1卷积，基于Channel×H₁×W₁维的隐含状态

计算H₁×W₁维的预测结果

步骤3：训练优化模型。设定模型超参数，使用训练集训练模型，根据在测试集上的预测误差调整超参数，具体步骤如下：

步骤31：将步骤12中得到的训练集重塑，即将多个样本合为一个批次输入模型，设每批中样本个数为B，则最终得到的训练集每一批的输入和标签维度均为ts×B×N(站点数据)或ts×B×H×W(网格或图像)。

步骤32：设定超参数，初始化神经网络权值，设定梯度下降优化器(如RMSprop)优化模型中神经网络参数，设定学习速率、平滑常数、迭代次数、批大小(即为步骤31中的B)等超参数，使用均方根误差(RMSE)或平均绝对误差(MAE)作为损失函数。

步骤33：使用步骤31得到的训练集训练模型，对于每一批样本输入，将输入张量在神经网络中前向传播得到输出，通过损失函数计算模型输出的预测值与样本标签的真实值之间的误差及其梯度，将梯度在神经网络中反向传播，并使用优化器更新每一层的参数值(即步骤2中的权值矩阵和卷积核)。

步骤34：将测试集样本依次输入模型，得到模型输出的预测值，使用与步骤32、33中相同的损失函数衡量预测值与标签之间的误差，可作为评估模型精度的指标，损失函数越小，误差越小，模型预测精度越高，对于不同的数据集，模型最优的超参数设置不同，因此实际使用时既可参照“具体实施方式”一节中给出的超参数设置，也可根据实际误差对超参数做出调整，若更改超参数设置则需要重新进行步骤33。

步骤4：输出预报结果。将待预报时刻t₁之前一段时间(t₁-ts～t₁-1)的温度数据，按类似步骤1中的方法调整格式，生成长度为ts的温度序列，输入模型，得到从待预报时刻开始的ts个单位时间内(t₁～t₁+ts-1)的温度预报，更进一步地，预报t₁+ts～t₁+2ts-1时间内的温度时，如果在预报时已有t₁～t₁+ts-1的真实温度，则以真实温度作为模型输入，如果没有，则以模型对t₁～t₁+ts-1时间的预测值作为模型的输入，t₁+2ts时刻之后的预报任务与t₁+ts～t₁+2ts-1采取类似的方法。

本发明具有如下的有益效果：

(1)通过在捕捉时序信息的LSTM单元中嵌入整合空间信息的社会张量，高效地实现时空信息的深度融合：随时间推移，每预测一个时刻之前，时序层LSTM输出的隐含状态都会计算一次社会张量以实现空间信息的整合，输入LSTM的温度时间序列的长度即是时空信息融合的次数，时空信息深度融合。

(2)Social LSTM先划分待预报区域进行时序预测，再整合空间信息，使得模型既能适用于空间中离散的气象观测站数据，又适用于密集的温度网格数据和遥感图像，实现端到端的快速温度预报。

(3)社会张量是嵌入LSTM结构中的且计算方法固定没有需要学习的参数，相比于多层堆叠的混合网络，本发明的模型更加轻量，参数少且推理速度快。

附图说明

图1：带有社会池化层的长短期记忆网络(Social LSTM)预测气温网格数据的计算流程示意图。

图2：Social LSTM局部结构示意图，其中图2a为对于每一个LSTM单元的输入输出张量(特别是社会张量Social Tensor)的示意图，其中三维长方体为张量，二维矩形为神经网络层；图2b为图2a中Embedding嵌入层的内部结构示意图。

图3：实施方式流程图。

具体实施方式

下面将结合附图3和具体实施例对本发明进行进一步详细说明。在发明内容的具体步骤中，由于网格数据在下采样后与离散网格点类似，没有详细展开说明，故选取网格气温数据为例做进一步说明。

步骤1：数据预处理。选取北纬8度至南纬54度，西经80度至25度作为待预报的目标区域，从气候预报系统再分析(CFSR)数据集中获取该地区数据1979年1月至2015年12月，以6小时为间隔，空间分辨率为温度数据0.5度×0.5度的温度数据。

步骤11：规定数据集中每个输入样本的温度序列的长度(即时间步长)ts＝5，以6小时为时间单位，此时每个样本的输入温度序列的五个时刻，所对应真实时间为第0、6、12、18、24小时，标签温度对应时间为第30、36、42、48、54小时。由具体实施方式步骤1中数据集的目标区域经纬度范围和时空分辨率可知，每一时刻的温度网格大小32×32，故样本可构造的输入和标签均为5×32×32维度的张量，设t时刻32×32的原始网格为

步骤12：按照步骤11裁剪得到的数据集共有54056个样本，按照0.7，0.3的比例划分训练集和测试集，取整后训练集包含37840个样本，测试集包含16216个样本。

步骤2：使用开源深度学习框架Pytorch建立模型，由于输入数据是小规模温度网格，采取如下步骤：

步骤22：由于网格的长宽为H＝32，W＝32，设L＝2，小区域个数为2×2，每个区域范围坐标范围分别为：区域(1，1)横坐标1-16，纵坐标1-16；区域(1，2)横坐标1-16，纵坐标17-32；区域(2，1)横坐标17-32，纵坐标1-16，区域(2，2)横坐标17-32，纵坐标17-32。对每个区域(i，j)计算t时刻样本输入的温度特征

这是由区域(i，j)在t时刻的温度网格取中心温度、最大值池化、平均池化三个下采样操作得到的3维向量。注：由于网格长宽为偶数，故取中心附近的4个网格点均值作为中心温度；而对于奇数个区域如L＝3时，区域长宽取32除以3的上取整，为11，此时中心温度直接去小区域网格的中心点即可，但在划分区域时相邻区域需要有1的重合，如横轴纵轴不同区域的划分为1-11，12-22，22-32。

步骤221：设定LSTM隐含层尺寸Size_h＝32，对每个小区域(i，j)，将社会张量

细胞状态

隐含状态

均初始化为32维的零张量。

步骤222：从t＝1时刻开始的每一个时刻t，对于每个小区域(i，j)，计算社会张量。将t-1时刻的四个小区域的隐含状态相加，再经过Embedding嵌入层变换得到t时刻站点j的社会张量

其中W_se，b_se为32×32和32×1权值矩阵，ReLU为激活函数ReLU(x)＝max{0，x}，Dropout特指神经网络中的Dropout操作，在训练过程中随机丢弃一些神经元不参与训练，丢弃概率设为0.5。

步骤223：类似地，对t时刻小区域(i，j)的输入温度特征向量

做Embedding嵌入层的变换，

其中W_te，b_te为32×3的权值矩阵，故

也是32维的张量，ReLU，Dropout与步骤212中定义相同。将

与

直接拼接得到t时刻小区域(i，j)输入LSTM单元的输入张量

它是64维的。

步骤224：建立输入尺寸为64，隐含层尺寸为32的LSTM单元，计算公式如下

其中W_ii，W_if，W_ig，W_io为64×32权值矩阵，W_hi，W_hg，W_ho为32×32的权值矩阵，

b_ii，b_if，b_ig，b_io，b_hf，b_hg，b_ho为32×1的权值矩阵，

即为t时刻站点j的细胞状态和隐含状态，tanh为双曲正切函数

σ为Sigmoid函数

⊙为Hadamard积，即张量的按位乘法<x_ij>⊙<y_ij><x_ij·y_ij>。

步骤225：通过全连接层得到t时刻输出

其中W_yh，b_yh为32×1和1×1权值矩阵，

即为模型输出。

步骤31：将步骤12中得到的训练集重塑，即将多个样本合为一个批次输入模型，设每批中样本个数为B＝32，则最终得到的训练集每一批的输入和标签维度均为5×32×32×32，由于训练集样本数为37840(除以32余16)，最后不足一批的样本可以丢弃或作为一个B＝16的批次。

步骤32：设定优化器为RMSprop，学习速录lr＝0.001，平滑常数alpha＝0.9，迭代次数为epoch＝100，损失函数Loss使用RMSE或MAE，对单个样本的损失函数公式如下

其中

为模型预测值，

为样本标签的温度网格经过步骤2中的中心温度下采样得到的小区域的整体温度的真实值。对于批样本，则将每个样本的损失函数值相加取平均。

步骤33：使用步骤31得到的训练集训练模型，对于每一批样本输入，将输入张量在神经网络中前向传播得到输出，通过损失函数计算模型输出的预测值与样本标签的真实值之间的误差及其梯度，将梯度在神经网络中反向传播，并使用优化器更新每一层的参数值(即步骤2中的权值矩阵和卷积核)。RMSprop优化器的优化过程如下：

初始化累积变量r＝0

计算当前批样本的损失函数

对于神经网络中某一层的参数θ，求损失函数关于θ的梯度

累积平方梯度r＝αr+(1-α)g⊙g，其中⊙为Hadamard积；

计算参数更新

(逐维度计算)

更新参数θ′＝θ+ΔΘ

当迭代超过epoch次时停止更新，结束训练。

步骤34：将测试集的16216个样本依次输入模型，将输出与样本标签按照步骤32中的损失函数计算误差损失，取所有样本误差函数的平均值，即为模型的经验误差，经验误差越小，模型预报精确度越高。本实施例中，超参数包括步骤1中的ts、步骤22中的L、步骤221中的Size_h，步骤31中的B，步骤32中的lr，alpha，epoch，Loss。在上述步骤中给出的具体数值是经实验验证后较好的设置，根据数据集的不同，实际使用本发明时，若测试集上的损失函数平均值过大，可对超参数作出调整，根据经验，一般情况下：ts可设为5-50之间整数值，L为2、3、4、5等较小的正整数值，为方便计算机内存对齐提高计算效率，Size_h和B取2的正整数次幂且不超过256，lr为接近0的小数，alpha为接近1的小数，epoch取100-500的整数值，Loss可使用RMSE、MAE、MSE(均方误差)、rMAE(相对平均绝对值误差)等可用于回归问题的损失函数。

步骤4：输出预报结果。将待预报时刻t₁之前一段时间(t₁-5～t₁-1)的温度数据，按类似步骤1中的方法调整格式，生成长度为ts的温度序列，输入模型，得到从待预报时刻开始的ts个单位时间内(t₁～t₁+4)的温度预报，更进一步地，预报t₁+5～t₁+9时间内的温度时，如果在预报时已有t₁～t₁+4的真实温度，则以真实温度作为模型输入，如果没有，则以模型对t₁～t₁+4时间的预测值作为模型的输入，t₁+10时刻之后的预报任务与t₁+5～t₁+9采取类似的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术方案和权利要求的范围内，可轻易想到的任何简单修改、等同变化与修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度时空神经网络的气温预报方法，其特征在于以下步骤：

步骤1：数据预处理，针对需要预报的目标区域，用该区域历史气温数据，建立适合长短期记忆神经网络输入格式的时间序列数据集，将数据集划分为训练集和测试集；

步骤11：规定数据集中每个输入样本的温度序列的长度，即时间步长ts，每个样本的输入为连续t个单位时间的温度序列，标签为紧邻输入序列之后ts个单位时间的温度序列；若温度数据为气象站点温度，设待预报的目标区域中气象站点数为N，则每个样本的输入和标签维度均为ts×N，若温度数据为温度网格或遥感图像，设待预报的目标区域长宽为H、W，则每个样本的输入和标签维度均为ts×H×W；

步骤12：将样本按照输入温度序列的第一个时间点的真实日期升序排序得到数据集全体，按一定比例划分为两部分，前一部分为训练集，后一部分为测试集；

步骤2：建立模型，对气象站点、小规模温度网格、遥感图像三种不同的数据格式分别建立不同的带社会张量的长短期记忆神经网络模型；

步骤21：对于空间离散的气象站温度数据，使用Embedding嵌入层变换输入；

步骤211：设定长短期记忆神经网络隐含层尺寸Size_h，对每个站点，将社会张量

细胞状态

隐含状态

均初始化为Size_h维的零张量；

步骤212：从t＝1时刻开始的每一个时刻t，对于每一站点j，计算社会张量，以欧式距离或曼哈顿距离为距离公式，找到离当前站点最近的K个站点，将其对应t-1时刻的隐含状态

相加，再经过Embedding嵌入层变换得到t时刻站点j的社会张量

计算公式为

其中W_se，b_se为Size_h×Size_h和Size_h×1权值矩阵，ReLU为激活函数ReLU(x)＝max{0，x}，Dropout特指神经网络中的Dropout操作，在训练过程中随机选择一些神经元不参与训练；

步骤213：对t时刻站点j的输入温度

做Embedding嵌入层的变换，

其中W_te，b_te为Size_h×1的权值矩阵，

也是Size_h维的张量，将

与

直接拼接得到t时刻站点j输入长短期记忆神经网络单元的2Size_h维的输入张量

步骤214：建立输入尺寸2Size_h，隐含层尺寸Size_h的长短期记忆神经网络单元，计算公式如下

其中

为t时刻站点j的隐含状态和细胞状态，

为t-1时刻站点j的隐含状态和细胞状态，对于t＝1时，

和

即为

和

W_ii，W_if，W_ig，W_io为2Size_h×Size_h权值矩阵，W_hi，W_hf，W_hg，W_ho为Size_h×Size_h的权值矩阵，

b_ii，b_if，b_ig，b_io，b_hi，b_hf，b_hg，b_ho为Size_h×1的权值矩阵，tanh为双曲正切函数，σ为Sigmoid函数，⊙为Hadamard积，即张量的按位乘法；

步骤215：通过全连接层得到t时刻输出

其中W_yh，b_yh为Size_h×1和1×1权值矩阵，

即为模型输出；

步骤22：对于H×W的小规模温度网格数据，平均划分网格区域，将每个小区域视为一个气象站点，每个小区域取平均池化、最大池化以及中心点温度，下采样为

为t时刻区域(i，j)的下采样点的维度为3的特征张量，进行步骤211-215，对于步骤212直接将所有小区域的隐含层状态相加，即令K＝L²，最终得到的输出视为每个小区域整体温度的预报；

步骤23：对于H×W的遥感图像，建立带有社会张量的卷积长短期记忆网络；

步骤231：样本输入的图像序列记为

将图像划分为L₁×L₂个小区域，使每个区域均为H₁×W₁的矩形，此时输入图像序列为

设定卷积长短期记忆神经网络的卷积核大小为Kernel_h×Kernel_w，设定隐含层通道数为Channel，将每个小区域的细胞状态

隐含状态

均初始化为Channel×H₁×W₁维的零张量；

步骤232：从t＝1时刻开始的每一个时刻t，将所有小区域的隐含状态张量按空间相对位置拼接为Channel×(L₁·H₁)×(L₂·W₁)的张量S′_t，经过二维卷积变换为1×H₁×W₁的社会张量S_t；

步骤233：将t时刻的小区域

与社会张量合并为2×H₁×W₁的输入张量

步骤234：建立输入为2×H₁×W₁，隐含状态维度为Channel×H₁×W₁的卷积长短期记忆神经网络，公式如下，

其中

为t时刻区域(i，j)的隐含状态和细胞状态，

为t-1时刻区域(i，j)的隐含状态和细胞状态，对于t＝1时，

和

即为

和

W_ii，W_if，W_ig，W_io，W_hi，W_hf，W_hg，W_ho为Channel×2×Kernel_h×Kernel_w的卷积核，

b_ii，b_if，b_ig，b_io，b_hi，b_hf，b_hg，b_ho为Channel×Kernel_h×Kernel_w的权值矩阵，*为带有填充的卷积，横向填充大小为

纵向填充大小为

σ，tanh，⊙的含义与步骤214相同；

步骤235：通过1×1卷积，基于Channel×H₁×W₁维的隐含状态

计算H₁×W₁维的预测结果

步骤3：训练优化模型，设定模型超参数，使用训练集训练模型，根据在测试集上的预测误差调整超参数；

步骤31：将步骤12中得到的训练集重塑，即将多个样本合为一个批次输入模型；

步骤32：设定超参数，初始化神经网络权值，使用梯度下降类优化器优化模型中神经网络参数，设定学习速率、平滑常数、迭代次数、批大小，使用均方根误差或平均绝对误差作为模型训练的损失函数；

步骤33：使用步骤31得到的训练集训练模型，对于每一批样本输入，将输入张量在神经网络中前向传播得到输出，通过损失函数计算模型输出的预测值与样本标签的真实值之间的误差及其梯度，将梯度在神经网络中反向传播，并使用优化器更新每一层的参数值；

步骤34：将测试集样本依次输入模型，得到模型输出的预测值，使用与步骤32、33中相同的损失函数衡量预测值与标签之间的误差，可作为评估模型精度的指标，损失函数越小，误差越小，模型预测精度越高，对于不同的数据集，若实际误差过大，调整超参数重新进行步骤33；

步骤4：输出预报结果，将待预报时间之前的一段时间内的温度数据调整为适配模型输入的温度序列，输入模型得到预报结果。

2.根据权利要求1所述一种基于深度时空神经网络的气温预报方法，其特征在于，所述步骤4输出预报结果，将待预报时刻t₁之前一段时间(t₁-t_s～t₁-1)的温度数据，按照步骤11中的方法调整格式，生成长度为ts的温度序列，输入模型，得到从待预报时刻开始的ts个单位时间内(t₁～t₁+ts-1)的温度预报，更进一步地，预报t₁+ts～t₁+2ts-1时间内的温度时，如果在预报时已有t₁～t₁+ts-1的真实温度，则以真实温度作为模型输入，如果没有，则以模型对t₁～t₁+ts-1时间的预测值作为模型的输入。